Wenhan Yu

defense arXiv Jan 26, 2026 · 10w ago

Zhewen Tan, Wenhan Yu, Jianfeng Si et al. · Peking University · Qiyuan Tech +1 more

Closed-loop RL framework co-training LLM attacker, defender, and evaluator to iteratively improve safety alignment with minimal annotation

Prompt Injection nlpreinforcement-learning

Papers in Database (1)