Zhouxiang Fang

defense arXiv Mar 10, 2026 · 27d ago

Zhouxiang Fang, Jiawei Zhou, Hanjie Chen · Rice University · Stony Brook University

Defends LLM safety alignment against fine-tuning-induced degradation using generative replay of synthesized safety data

Transfer Learning Attack Prompt Injection nlp

Papers in Database (1)