Hao Li

defense arXiv Jan 15, 2026 · 11w ago

Hao Wang, Yanting Wang, Hao Li et al. · Beihang University · Peking University +1 more

Defends LLMs against jailbreaks via self-play RL where one model concurrently generates and resists adversarial prompts

Prompt Injection nlp

Papers in Database (1)