Yue Zhang

attack arXiv Feb 12, 2026 · Feb 2026

Hongbo Zhang, Yang Yue, Jianhao Yan et al. · Zhejiang University · Westlake University +1 more

Black-box membership inference attack on RLVR-trained reasoning models exploiting generation diversity collapse to detect training data

Membership Inference Attack nlpreinforcement-learning

defense arXiv Aug 3, 2025 · Aug 2025

Alva West, Yixuan Weng, Minjun Zhu et al. · Westlake University

Detects AI-generated text via wavelet-transformed token statistics, exploiting non-stationarity invisible to scalar-score detectors

Output Integrity Attack nlp

defense arXiv Apr 29, 2026 · 22d ago

Yuan Xin, Yixuan Weng, Minjun Zhu et al. · CISPA · Westlake University +3 more

GAN-inspired co-evolutionary framework training attack generators and defenders to protect LLM review systems from hidden prompt injection

Prompt Injection nlp

Papers in Database (3)