Haoran Li

benchmark arXiv Oct 14, 2025 · Oct 2025

Han Zhu, Juntao Dai, Jiaming Ji et al. · Hong Kong University of Science and Technology · Peking University +1 more

Benchmarks multi-turn jailbreak safety of 17 multimodal LLMs and proposes a dialogue safety moderator to reduce attack success rates

Prompt Injection multimodalnlp

3 citations PDF

defense arXiv Jan 8, 2026 · 12w ago

Han Zhu, Jiale Chen, Chengkun Cai et al. · Hong Kong University of Science and Technology · Sun Yat-Sen University +3 more

GRPO-based safety alignment framework defending MLLMs against multi-turn jailbreaks via dataset and turn-aware dual-objective rewards

Prompt Injection multimodalnlp

Papers in Database (2)