Jacopo Cortellazzi

defense arXiv Feb 12, 2026 · 7w ago

Yannick Assogba, Jacopo Cortellazzi, Javier Abad et al. · Apple · ETH Zürich

Defends LLMs against jailbreaks via SAE feature-space steering, outperforming dense activation steering on four models across twelve attacks

Prompt Injection nlp

Papers in Database (1)