Mingqian Feng

attack arXiv Feb 6, 2026 · 8w ago

Mingqian Feng, Xiaodong Liu, Weiwei Yang et al. · University of Rochester · Microsoft Research

RL-trained multi-turn jailbreak attacker with intent-drift-aware reward achieves 80.1% ASR, beating SOTA by 33.9%

Prompt Injection nlp

1 citations 1 influentialPDF Code

benchmark arXiv Jan 30, 2026 · 9w ago

Mingqian Feng, Xiaodong Liu, Weiwei Yang et al. · University of Rochester · Microsoft Research

Statistical scaling law using Beta distributions to predict LLM jailbreak success rates at large N from small-budget measurements

Prompt Injection nlp

Papers in Database (2)