Yanyan Zhao

defense arXiv Jan 7, 2026 · Jan 2026

Di Wu, Yanyan Zhao, Xin Lu et al. · Harbin Institute of Technology

Self-improving safety alignment trains LLMs to iteratively reason over safety rules to resist jailbreak attacks

Prompt Injection nlp

1 citations PDF Code

Papers in Database (1)