ML Security Papers

ML Security Papers

Latest papers

1 papers

attack arXiv Nov 18, 2025 · Nov 2025

Stealth Fine-Tuning: Efficiently Breaking Alignment in RVLMs Using Self-Generated CoT

Le Yu, Zhengyue Zhao, Yawen Zheng et al. · Sichuan University · University of Wisconsin–Madison +2 more

Breaks RVLM safety alignment via QLoRA fine-tuning on self-generated harmful CoT traces with 499 samples in under 3 hours

Transfer Learning Attack Prompt Injection multimodalnlp