Eric Easley

defense arXiv Apr 12, 2026 · 3d ago

Eric Easley, Sebastian Farquhar · University of California · University of Oxford

Defense training LLMs to reinterpret malicious instructions as benign at the representation level, blocking jailbreaks and backdoors

Model Poisoning Prompt Injection Sensitive Information Disclosure nlp

Papers in Database (1)