Adam D. Cobb

attack arXiv Apr 22, 2026 · 29d ago

Krishiv Agarwal, Ramneet Kaur, Colin Samplawski et al. · University of Florida · SRI

Interpretability-driven jailbreak audit using activation steering on 8 LLMs, achieving 91% success on Llama-3.3-70B

Prompt Injection nlp

Papers in Database (1)