Shanghao Shi

defense arXiv Dec 12, 2025 · Dec 2025

Peichun Hua, Hao Li, Shanghao Shi et al. · Washington University in St. Louis · Texas A&M University

Detects LVLM jailbreaks by contrastively scoring internal model representations, separating malicious from novel-benign inputs

Input Manipulation Attack Prompt Injection multimodalvisionnlp

benchmark arXiv Feb 3, 2026 · 8w ago

Hao Li, Ruoyao Wen, Shanghao Shi et al. · Washington University in St. Louis · Johns Hopkins University

New dynamic benchmark exposing that all existing indirect prompt injection defenses fail real-world agent deployment requirements

Prompt Injection nlp

Papers in Database (2)