ML Security Papers

Latest papers

920 papers

defense arXiv Apr 29, 2026 · 22d ago

Robust Alignment: Harmonizing Clean Accuracy and Adversarial Robustness in Adversarial Training

Yanyun Wang, Qingqing Ye, Li Liu et al. · Hong Kong Polytechnic University · Hong Kong University of Science and Technology

Adversarial training method that harmonizes clean accuracy and robustness by aligning input perturbations with latent space representations

Input Manipulation Attack vision

PDF

defense arXiv Apr 28, 2026 · 23d ago

Adversarial Robustness of NTK Neural Networks

Yuxuan Hou · Qiuzhen College · Tsinghua University

Proves NTK neural networks achieve minimax optimal adversarial robustness with early stopping but fail catastrophically when overfitted

Input Manipulation Attack tabular

PDF

attack arXiv Apr 28, 2026 · 23d ago

One Perturbation, Two Failure Modes: Probing VLM Safety via Embedding-Guided Typographic Perturbations

Ravikumar Balakrishnan, Sanket Mendapara · Cisco Systems

Adversarial visual perturbations that bypass VLM safety filters via embedding-guided typographic optimization, exploiting both readability and alignment weaknesses

Input Manipulation Attack Prompt Injection visionnlpmultimodal

PDF

attack arXiv Apr 28, 2026 · 23d ago

Test-Time Safety Alignment

Baturay Saglam, Dionysis Kalogerias · Yale University

Gradient-based embedding optimization that bypasses LLM safety alignment to neutralize refusals on harmful queries

Input Manipulation Attack Prompt Injection nlp

PDF

survey arXiv Apr 28, 2026 · 23d ago

Verification of Neural Networks (Lecture Notes)

Benedikt Bollig · Université Paris-Saclay · CNRS +1 more

Theoretical introduction to formal verification techniques for neural networks including feed-forward, recurrent, attention, and transformer architectures

Input Manipulation Attack visionnlp

PDF

defense arXiv Apr 27, 2026 · 24d ago

Mitigating Error Amplification in Fast Adversarial Training

Mengnan Zhao, Lihe Zhang, Bo Wang et al. · AnHui University · Dalian University of Technology +2 more

Dynamic guidance strategy that adjusts perturbation budgets and supervision signals during adversarial training to prevent catastrophic overfitting

Input Manipulation Attack vision

PDF

defense arXiv Apr 27, 2026 · 24d ago

Certified geometric robustness -- Super-DeepG

Noémie Cohen, Mélanie Ducoffe, Christophe Gabreau et al. · Airbus · ONERA

Certified defense verifying neural network robustness against geometric perturbations like rotation, scaling, and shearing on images

Input Manipulation Attack vision

PDF Code

defense arXiv Apr 27, 2026 · 24d ago

Unveiling the Backdoor Mechanism Hidden Behind Catastrophic Overfitting in Fast Adversarial Training

Mengnan Zhao, Lihe Zhang, Tianhang Zheng et al. · AnHui University · Dalian University of Technology +1 more

Interprets catastrophic overfitting in fast adversarial training as trigger-based backdoor behavior and proposes backdoor-inspired mitigation strategies

Input Manipulation Attack Model Poisoning vision

PDF

defense arXiv Apr 27, 2026 · 24d ago

Laplace-Bridged Randomized Smoothing for Fast Certified Robustness

Miao Lin, MD Saifur Rahman Mazumder, Feng Yu et al. · Old Dominion University · University of Texas at El Paso

Analytic reformulation of randomized smoothing achieving 494× faster certification on edge devices without noise-augmented training

Input Manipulation Attack vision

PDF

benchmark arXiv Apr 27, 2026 · 24d ago

Robust Deepfake Detection, NTIRE 2026 Challenge: Report

Benedikt Hopf, Radu Timofte, Chenfan Qu et al. · University of Würzburg · University of Science +3 more

Competition evaluating deepfake detector robustness against common and adversarial image degradations using hidden test sets

Output Integrity Attack Input Manipulation Attack visiongenerative

PDF

attack arXiv Apr 27, 2026 · 24d ago

Adaptive Prompt Embedding Optimization for LLM Jailbreaking

Miles Q. Li, Benjamin C. M. Fung, Boyang Li et al. · McGill University · Kean University +2 more

White-box jailbreak optimizing prompt embeddings directly instead of appending adversarial tokens, achieving higher success rates

Input Manipulation Attack Prompt Injection nlp

PDF

attack arXiv Apr 25, 2026 · 26d ago

Transferable Physical-World Adversarial Patches Against Object Detection in Autonomous Driving

Zihui Zhu, Ziqi Zhou, Yichen Wang et al. · Huazhong University of Science and Technology

Physical adversarial patches optimized across multiple detectors to achieve transferable attacks against autonomous driving perception systems

Input Manipulation Attack vision

PDF

attack ICLR Apr 25, 2026 · 26d ago

Ulterior Motives: Detecting Misaligned Reasoning in Continuous Thought Models

Sharan Ramjee · Stanford University

Dual-trigger backdoor attack on continuous thought models that arms misaligned reasoning in latent space, with linear probe detection

Model Poisoning Input Manipulation Attack Prompt Injection nlp

PDF

benchmark arXiv Apr 24, 2026 · 27d ago

Useful nonrobust features are ubiquitous in biomedical images

Coenraad Mouton, Randle Rabe, Niklas C. Koser et al. · University Hospital Schleswig-Holstein · North-West University

Adversarial training on medical images sacrifices in-distribution accuracy for better OOD robustness by relying on robust rather than nonrobust features

Input Manipulation Attack vision

PDF

attack arXiv Apr 24, 2026 · 27d ago

Transferable Physical-World Adversarial Patches Against Pedestrian Detection Models

Shihui Yan, Ziqi Zhou, Yufei Song et al. · Huazhong University of Science and Technology

Physical adversarial patches that fool pedestrian detectors by disrupting detection confidence, bounding boxes, and NMS across the pipeline

Input Manipulation Attack vision

PDF

defense arXiv Apr 23, 2026 · 28d ago

ID-Eraser: Proactive Defense Against Face Swapping via Identity Perturbation

Junyan Luo, Peipeng Yu, Jianwei Fei et al. · Jinan University · University of Florence +1 more

Feature-space defense that perturbs facial identity embeddings to prevent face swapping attacks while keeping images visually unchanged

Input Manipulation Attack visiongenerative

PDF

attack arXiv Apr 23, 2026 · 28d ago

Adversarial Evasion in Non-Stationary Malware Detection: Minimizing Drift Signals through Similarity-Constrained Perturbations

Pawan Acharya, Lan Zhang · Northern Arizona University

Adversarial attacks on ML malware detectors that evade classification while avoiding detection by drift monitoring systems

Input Manipulation Attack Model Skewing tabular

PDF

attack arXiv Apr 23, 2026 · 28d ago

Cross-Modal Phantom: Coordinated Camera-LiDAR Spoofing Against Multi-Sensor Fusion in Autonomous Vehicles

Shahriar Rahman Khan, Raiful Hasan · Kent State University

Coordinated camera-LiDAR spoofing attack that fabricates cross-sensor consistency to inject phantom objects into AV perception systems

Input Manipulation Attack visionmultimodal

PDF

survey arXiv Apr 22, 2026 · 29d ago

SoK: The Next Frontier in AV Security: Systematizing Perception Attacks and the Emerging Threat of Multi-Sensor Fusion

Shahriar Rahman Khan, Tariqul Islam, Raiful Hasan · Kent State University · University of Maryland

Systematizes 48 studies on AV perception attacks, tracking evolution from single-sensor exploits to multi-sensor fusion vulnerabilities

Input Manipulation Attack visionmultimodal

PDF

benchmark arXiv Apr 22, 2026 · 29d ago

Auto-ART: Structured Literature Synthesis and Automated Adversarial Robustness Testing

Abhijit Talluri

Framework for automated adversarial robustness testing with 50+ attacks, gradient masking detection, and multi-norm evaluation compliance-mapped to NIST/OWASP

Input Manipulation Attack Prompt Injection visionnlpaudiomultimodal

PDF

Loading more papers…

Latest papers

Robust Alignment: Harmonizing Clean Accuracy and Adversarial Robustness in Adversarial Training

Adversarial Robustness of NTK Neural Networks

One Perturbation, Two Failure Modes: Probing VLM Safety via Embedding-Guided Typographic Perturbations

Test-Time Safety Alignment

Verification of Neural Networks (Lecture Notes)

Mitigating Error Amplification in Fast Adversarial Training

Certified geometric robustness -- Super-DeepG

Unveiling the Backdoor Mechanism Hidden Behind Catastrophic Overfitting in Fast Adversarial Training

Laplace-Bridged Randomized Smoothing for Fast Certified Robustness

Robust Deepfake Detection, NTIRE 2026 Challenge: Report

Adaptive Prompt Embedding Optimization for LLM Jailbreaking

Transferable Physical-World Adversarial Patches Against Object Detection in Autonomous Driving

Ulterior Motives: Detecting Misaligned Reasoning in Continuous Thought Models

Useful nonrobust features are ubiquitous in biomedical images

Transferable Physical-World Adversarial Patches Against Pedestrian Detection Models

ID-Eraser: Proactive Defense Against Face Swapping via Identity Perturbation

Adversarial Evasion in Non-Stationary Malware Detection: Minimizing Drift Signals through Similarity-Constrained Perturbations

Cross-Modal Phantom: Coordinated Camera-LiDAR Spoofing Against Multi-Sensor Fusion in Autonomous Vehicles

SoK: The Next Frontier in AV Security: Systematizing Perception Attacks and the Emerging Threat of Multi-Sensor Fusion

Auto-ART: Structured Literature Synthesis and Automated Adversarial Robustness Testing

Filters

Time Period

Paper Type

OWASP ML Top 10

OWASP LLM Top 10

Institution

Venue