Daling Wang

defense arXiv Jan 15, 2026 · 11w ago

Yinzhi Zhao, Ming Wang, Shi Feng et al. · Northeastern University

Defends LLMs against jailbreaks by probing latent safety signals during decoding to detect and block harmful outputs early

Prompt Injection nlp

Papers in Database (1)