Scott Emmons

attack arXiv Dec 12, 2025 · Dec 2025

Max McGuinness, Alex Serrano, Luke Bailey et al. · MATS · UC Berkeley +1 more

Fine-tuning embeds trigger-activated backdoor enabling LLMs to zero-shot evade unseen activation safety monitors

Model Poisoning Prompt Injection nlp

2 citations PDF Code

Papers in Database (1)