ML Security Papers

Latest papers

3 papers

defense arXiv Feb 5, 2026 · 8w ago

Zhe Li, Bernhard Kainz · FAU Erlangen-Nürnberg

Defends image classifiers against adversarial attacks using shape-guided purification with SDFs, surpassing 80% robust accuracy on AutoAttack

Input Manipulation Attack vision

benchmark International Conference on Cy... Nov 12, 2025 · Nov 2025

Philipp Dingfelder, Christian Riess · FAU Erlangen-Nürnberg

Benchmark contamination in DetectRL causes shortcut learning, enabling spoofing attacks on AI-generated text detectors

Output Integrity Attack nlp

attack arXiv Aug 11, 2025 · Aug 2025

Zuoou Li, Weitong Zhang, Jingyuan Wang et al. · Imperial College London · FAU Erlangen-Nürnberg +1 more

Jailbreaks MLLMs by balancing on-topic prompts with OOD visual cues, achieving 67% higher attack success across 13 models

Input Manipulation Attack Prompt Injection multimodalnlpvision