Jiahao Yu

defense arXiv Mar 18, 2026 · 19d ago

Haozheng Luo, Yimin Wang, Jiahao Yu et al. · Northwestern University · University of Michigan +1 more

Aligns reasoning models against jailbreaks by optimizing safety in hidden representation space using contrastive RL

Prompt Injection nlp

Papers in Database (1)