ML Security Papers

defense arXiv Feb 3, 2026 · 8w ago

Risk Awareness Injection: Calibrating Vision-Language Models for Safety without Compromising Utility

Mengxuan Wang, Yuxin Chen, Gang Xu et al. · South China University of Technology · Guangdong Laboratory of Artificial Intelligence and Digital Economy (SZ) +2 more

Training-free VLM defense that amplifies risk signals in visual tokens to block multimodal jailbreak attacks without utility loss

Input Manipulation Attack Prompt Injection visionnlpmultimodal

PDF

attack arXiv Nov 1, 2025 · Nov 2025

Enhancing Adversarial Transferability by Balancing Exploration and Exploitation with Gradient-Guided Sampling

Zenghao Niu, Weicheng Xie, Siyang Song et al. · Shenzhen University · Guangdong Laboratory of Artificial Intelligence and Digital Economy (SZ) +3 more

Gradient-guided sampling attack improves adversarial transferability across DNNs and VLMs by balancing loss flatness and attack potency

Input Manipulation Attack Prompt Injection visionmultimodal

PDF Code

Latest papers

Risk Awareness Injection: Calibrating Vision-Language Models for Safety without Compromising Utility

Enhancing Adversarial Transferability by Balancing Exploration and Exploitation with Gradient-Guided Sampling

Filters

Time Period

Paper Type

OWASP ML Top 10

OWASP LLM Top 10

Institution

Venue