Yuhang Wang

defense arXiv Nov 26, 2025 · Nov 2025

Yuhang Wang, Yanxu Zhu, Dongyuan Lu et al. · Beijing Jiaotong University · University of International Business and Economics

Defends reasoning LLMs against jailbreaks by synthesizing safety guidelines and fine-tuning with SFT and DPO for adaptive alignment

Prompt Injection nlp

Papers in Database (1)