Ying Wen

defense arXiv Feb 2, 2026 · 9w ago

Xiaoyu Wen, Zhida He, Han Qi et al. · Shanghai AI Laboratory · Shanghai Jiao Tong University +1 more

Multi-agent RL co-evolves an LLM attacker and defender, generating novel jailbreaks to train robust safety alignment against unseen prompts

Prompt Injection nlpreinforcement-learning

Papers in Database (1)