Xianpei Han

defense arXiv Oct 24, 2025 · Oct 2025

Yingzhi Mao, Chunkang Zhang, Junxiang Wang et al. · Institute of Software · University of Chinese Academy of Sciences

Discovers Self-Jailbreak in LRMs — models override their own safety judgments mid-reasoning — and defends with step-level trajectory training

Prompt Injection nlp

Papers in Database (1)