Derek Liu

defense arXiv Dec 8, 2025 · Dec 2025

Max Zhang, Derek Liu, Kai Zhang et al. · AlgoVerseAI Research

Knowledge distillation of safe refusal behaviors into LLMs counterintuitively increases multilingual jailbreak success by up to 16.6 points

Transfer Learning Attack Prompt Injection nlp

Papers in Database (1)