Haozheng Luo

defense arXiv Mar 18, 2026 · 19d ago

Contrastive Reasoning Alignment: Reinforcement Learning from Hidden Representations

Haozheng Luo, Yimin Wang, Jiahao Yu et al. · Northwestern University · University of Michigan +1 more

Aligns reasoning models against jailbreaks by optimizing safety in hidden representation space using contrastive RL

Prompt Injection nlp

PDF

defense arXiv Aug 5, 2025 · Aug 2025

Evo-MARL: Co-Evolutionary Multi-Agent Reinforcement Learning for Internalized Safety

Zhenyu Pan, Yiting Zhang, Yutong Zhang et al. · Northwestern University · University of Illinois at Chicago

Defends LLM multi-agent systems against jailbreaks by co-evolving attackers and defenders via MARL, internalizing safety without external guard modules

Prompt Injection Excessive Agency multimodalreinforcement-learningnlp

PDF

Papers in Database (2)

Contrastive Reasoning Alignment: Reinforcement Learning from Hidden Representations

Evo-MARL: Co-Evolutionary Multi-Agent Reinforcement Learning for Internalized Safety