Jun Zhang

defense arXiv Mar 1, 2026 · 5w ago

Token-level Data Selection for Safe LLM Fine-tuning

Yanping Li, Zhening Liu, Zijian Li et al. · Lingnan University · The Hong Kong University of Science and Technology

Defends LLM safety alignment during fine-tuning by scoring and removing unsafe tokens via loss-difference between safety-degraded and utility-oriented reference models

Transfer Learning Attack Prompt Injection nlp

PDF Code

Papers in Database (1)

Token-level Data Selection for Safe LLM Fine-tuning