Lijun He

defense arXiv Jan 3, 2025 · Jan 2025

Spot Risks Before Speaking! Unraveling Safety Attention Heads in Large Vision-Language Models

Ziwei Zheng, Junyao Zhao, Le Yang et al. · Xi’an Jiaotong University

Discovers sparse safety attention heads in VLMs that detect malicious prompts, enabling a zero-shot jailbreak detector with minimal inference overhead

Prompt Injection multimodalvisionnlp

PDF Code

Papers in Database (1)

Spot Risks Before Speaking! Unraveling Safety Attention Heads in Large Vision-Language Models