Jing Shao

benchmark arXiv Nov 13, 2025 · Nov 2025

Yudong Yang, Xuezhen Zhang, Zhifeng Han et al. · Tsinghua University · Shanghai Artificial Intelligence Laboratory +1 more

Black-box audio jailbreaks via speech composition bypass multimodal LLM guardrails; SALMONN-Guard cuts attack success from 66% to 20%

Prompt Injection audiomultimodalnlp

3 citations PDF Code

defense arXiv Jan 15, 2026 · 11w ago

Yutao Mou, Zhangchi Xue, Lijun Li et al. · Peking University · Shanghai Artificial Intelligence Laboratory

Proactive step-level guardrail for LLM agent tool calls defends against malicious requests and prompt injection, cutting harmful invocations by 65%

Insecure Plugin Design Prompt Injection nlp

2 citations PDF

Papers in Database (2)