Geraldin Nanfack

attack arXiv Mar 4, 2026 · 5w ago

Efficient Refusal Ablation in LLM through Optimal Transport

Geraldin Nanfack, Eugene Belilovsky, Elvis Dohmatob · Concordia University · Mila – Québec AI Institute

Optimal transport attack transforms harmful LLM activation distributions to match harmless ones, achieving 11% higher jailbreak success than refusal-direction ablation baselines.

Prompt Injection nlp

PDF

Papers in Database (1)

Efficient Refusal Ablation in LLM through Optimal Transport