Gouki Minegishi

defense arXiv Mar 6, 2026 · 4w ago

Jingyuan Feng, Andrew Gambardella, Gouki Minegishi et al. · The University of Tokyo

Defends LLMs against jailbreaks via an explicit safety bit that makes alignment interpretable and overridable, achieving near-zero ASR

Prompt Injection nlp

Papers in Database (1)