MaungMaung AprilPyone

defense arXiv Dec 17, 2025 · Dec 2025

Hongbo Wang, MaungMaung AprilPyone, Isao Echizen · The University of Tokyo · National Institute of Informatics +1 more

Neuron-level white-box defense suppresses toxic expert neurons in VLMs, cutting harmful outputs from 48% to 2.5% under adversarial jailbreaks

Prompt Injection nlpmultimodalvision

1 citations PDF Code

Papers in Database (1)