Haozhong Wang

defense arXiv Jan 12, 2026 · 12w ago

Haozhong Wang, Zhuo Li, Yibo Yang et al. · Jilin University

Defends LLM safety alignment during fine-tuning via Optimal Transport-based distributional reweighting away from harmful data

Transfer Learning Attack Prompt Injection nlp

Papers in Database (1)