Shaopeng Fu

defense arXiv Apr 14, 2026 · 3d ago

Shaopeng Fu, Di Wang · King Abdullah University of Science and Technology

Proves why continuous adversarial training defends LLMs against jailbreaks and proposes embedding regularization for better robustness

Input Manipulation Attack Prompt Injection nlp

Papers in Database (1)