Fenghua Weng

defense arXiv Dec 8, 2025 · Dec 2025

Fenghua Weng, Chaochao Lu, Xia Hu et al. · ShanghaiTech University · Shanghai Artificial Intelligence Laboratory

Defends VLMs against visual and contextual jailbreaks via three-stage think-reflect-revise RL safety alignment training

Prompt Injection multimodalnlp

1 citations PDF Code

defense arXiv Oct 5, 2025 · Oct 2025

Yizhuo Ding, Mingkang Chen, Qiuhua Liu et al. · Fudan University · Shanghai AI Laboratory +3 more

Defends large multimodal reasoning models against jailbreaks via multi-objective RL that jointly optimizes safety and reasoning capability

Prompt Injection multimodalnlpvisionreinforcement-learning

Papers in Database (2)