Sasha Behrouzi

h-index: 3 17 citations 6 papers (total)

Papers in Database (2)

attack arXiv Dec 24, 2025 · Dec 2025

Lichao Wu, Sasha Behrouzi, Mohamadreza Rostami et al. · Technical University of Darmstadt · University of Zagreb +1 more

White-box attack disables ~3% of MoE safety neurons to raise LLM jailbreak success from 7% to 65% across eight aligned models

Prompt Injection nlpmultimodal

2 citations PDF

defense arXiv Feb 18, 2026 · 6w ago

Sasha Behrouzi, Lichao Wu, Mohamadreza Rostami et al. · Technical University of Darmstadt

Neuron-selective LLM safety alignment reduces jailbreak success rate by 90% using 17,310x fewer parameters than full fine-tuning

Prompt Injection nlp