ML Security Papers

Latest papers

1,255 papers

attack arXiv Apr 30, 2026 · 21d ago

Secret Stealing Attacks on Local LLM Fine-Tuning through Supply-Chain Model Code Backdoors

Zi Li, Tian Zhou, Wenze Li et al. · Nanjing University

Malicious model code backdoors that hijack fine-tuning to force memorization and extraction of high-entropy secrets like API keys

AI Supply Chain Attacks Model Inversion Attack Model Poisoning Sensitive Information Disclosure nlp

PDF

attack arXiv Apr 29, 2026 · 22d ago

Quantamination: Dynamic Quantization Leaks Your Data Across the Batch

Hanna Foerster, Ilia Shumailov, Cheng Zhang et al. · University of Cambridge · AI Sequrity Company +1 more

Side-channel attack exploiting dynamic quantization in ML frameworks to extract sensitive user data from batched inference requests

AI Supply Chain Attacks

PDF

attack arXiv Apr 28, 2026 · 23d ago

One Perturbation, Two Failure Modes: Probing VLM Safety via Embedding-Guided Typographic Perturbations

Ravikumar Balakrishnan, Sanket Mendapara · Cisco Systems

Adversarial visual perturbations that bypass VLM safety filters via embedding-guided typographic optimization, exploiting both readability and alignment weaknesses

Input Manipulation Attack Prompt Injection visionnlpmultimodal

PDF

attack arXiv Apr 28, 2026 · 23d ago

Test-Time Safety Alignment

Baturay Saglam, Dionysis Kalogerias · Yale University

Gradient-based embedding optimization that bypasses LLM safety alignment to neutralize refusals on harmful queries

Input Manipulation Attack Prompt Injection nlp

PDF

attack arXiv Apr 27, 2026 · 24d ago

Jailbreaking Frontier Foundation Models Through Intention Deception

Xinhe Wang, Katia Sycara, Yaqi Xie · Carnegie Mellon University

Multi-turn jailbreaking attack that deceives LLM safety by simulating benign intent across conversations to elicit harmful outputs

Prompt Injection nlpmultimodal

PDF

attack arXiv Apr 27, 2026 · 24d ago

Adaptive Prompt Embedding Optimization for LLM Jailbreaking

Miles Q. Li, Benjamin C. M. Fung, Boyang Li et al. · McGill University · Kean University +2 more

White-box jailbreak optimizing prompt embeddings directly instead of appending adversarial tokens, achieving higher success rates

Input Manipulation Attack Prompt Injection nlp

PDF

attack arXiv Apr 27, 2026 · 24d ago

DETOUR: A Practical Backdoor Attack against Object Detection

Dazhuang Liu, Yanqi Qiao, Rui Wang et al. · Delft University of Technology · University of Turku

Backdoor attack on detection transformers using semantic triggers optimized for real-world deployment across varying viewpoints and spatial configurations

Model Poisoning vision

PDF

attack arXiv Apr 26, 2026 · 25d ago

Do Protective Perturbations Really Protect Portrait Privacy under Real-world Image Transformations?

Ruiqing Sun, Xingshan Yao, Zhijing Wu et al. · Beijing Institute of Technology

Attacks pixel-level portrait privacy protections by purifying adversarial perturbations through real-world image transformations like scaling and compression

Output Integrity Attack visiongenerative

PDF

attack arXiv Apr 26, 2026 · 25d ago

Spore: Efficient and Training-Free Privacy Extraction Attack on LLMs via Inference-Time Hybrid Probing

Yu Cui, Ruiqing Yue, Hang Fu et al. · Beijing Institute of Technology · Chinese Academy of Sciences +3 more

Extracts private information from LLM agent memory via single-query hybrid probing in black-box and gray-box settings

Model Inversion Attack Sensitive Information Disclosure nlp

PDF

attack arXiv Apr 25, 2026 · 26d ago

Transferable Physical-World Adversarial Patches Against Object Detection in Autonomous Driving

Zihui Zhu, Ziqi Zhou, Yichen Wang et al. · Huazhong University of Science and Technology

Physical adversarial patches optimized across multiple detectors to achieve transferable attacks against autonomous driving perception systems

Input Manipulation Attack vision

PDF

attack arXiv Apr 25, 2026 · 26d ago

Toward Polymorphic Backdoor against Semantic Communication via Intensity-Based Poisoning

Xiao Yang, Yuni Lai, Gaolei Li et al. · Shanghai Jiao Tong University · Hong Kong Polytechnic University +1 more

Polymorphic backdoor attack on semantic communication systems using intensity-graded triggers for multiple target outputs plus provable defense

Model Poisoning Data Poisoning Attack visionmultimodal

PDF

attack ICLR Apr 25, 2026 · 26d ago

Ulterior Motives: Detecting Misaligned Reasoning in Continuous Thought Models

Sharan Ramjee · Stanford University

Dual-trigger backdoor attack on continuous thought models that arms misaligned reasoning in latent space, with linear probe detection

Model Poisoning Input Manipulation Attack Prompt Injection nlp

PDF

attack arXiv Apr 24, 2026 · 27d ago

Breaking Watermarks in the Frequency Domain: A Modulated Diffusion Attack Framework

Chunpeng Wang, Binyan Qu, Xiaoyu Wang et al. · Qilu University of Technology · Dalian Maritime University +2 more

Diffusion-based attack that removes image watermarks by selectively modulating frequency components while preserving visual quality

Output Integrity Attack visiongenerative

PDF

attack arXiv Apr 24, 2026 · 27d ago

Training a General Purpose Automated Red Teaming Model

Aishwarya Padmakumar, Leon Derczynski, Traian Rebedea et al. · NVIDIA

Trains general-purpose LLM red teaming models that generalize to arbitrary adversarial goals without pre-existing evaluators

Prompt Injection Red-Team Agents Benchmarks & Evaluation nlp

PDF

attack arXiv Apr 24, 2026 · 27d ago

Sharpness-Aware Poisoning: Enhancing Transferability of Injective Attacks on Recommender Systems

Junsong Xie, Yonghui Yang, Pengyang Shao et al. · Hefei University of Technology · National University of Singapore

Data poisoning attack on recommender systems using sharpness-aware optimization to boost transferability across victim models

Data Poisoning Attack

PDF

attack arXiv Apr 24, 2026 · 27d ago

Transferable Physical-World Adversarial Patches Against Pedestrian Detection Models

Shihui Yan, Ziqi Zhou, Yufei Song et al. · Huazhong University of Science and Technology

Physical adversarial patches that fool pedestrian detectors by disrupting detection confidence, bounding boxes, and NMS across the pipeline

Input Manipulation Attack vision

PDF

attack arXiv Apr 23, 2026 · 28d ago

Adversarial Evasion in Non-Stationary Malware Detection: Minimizing Drift Signals through Similarity-Constrained Perturbations

Pawan Acharya, Lan Zhang · Northern Arizona University

Adversarial attacks on ML malware detectors that evade classification while avoiding detection by drift monitoring systems

Input Manipulation Attack Model Skewing tabular

PDF

attack arXiv Apr 23, 2026 · 28d ago

Toward Efficient Membership Inference Attacks against Federated Large Language Models: A Projection Residual Approach

Guilin Deng, Silong Chen, Yuchuan Luo et al. · National University of Defense Technology · City University of Hong Kong +1 more

Gradient-based membership inference attack on federated LLMs achieving near-perfect accuracy via projection residual analysis

Membership Inference Attack nlpfederated-learning

PDF Code

attack arXiv Apr 23, 2026 · 28d ago

Transient Turn Injection: Exposing Stateless Multi-Turn Vulnerabilities in Large Language Models

Naheed Rayhan, Sohely Jahan · Jagannath University · University of Barishal

Multi-turn jailbreak attack that evades stateless moderation by distributing adversarial intent across isolated conversational turns

Prompt Injection nlp

PDF

attack arXiv Apr 23, 2026 · 28d ago

Cross-Modal Phantom: Coordinated Camera-LiDAR Spoofing Against Multi-Sensor Fusion in Autonomous Vehicles

Shahriar Rahman Khan, Raiful Hasan · Kent State University

Coordinated camera-LiDAR spoofing attack that fabricates cross-sensor consistency to inject phantom objects into AV perception systems

Input Manipulation Attack visionmultimodal

PDF

Loading more papers…

Latest papers

Secret Stealing Attacks on Local LLM Fine-Tuning through Supply-Chain Model Code Backdoors

Quantamination: Dynamic Quantization Leaks Your Data Across the Batch

One Perturbation, Two Failure Modes: Probing VLM Safety via Embedding-Guided Typographic Perturbations

Test-Time Safety Alignment

Jailbreaking Frontier Foundation Models Through Intention Deception

Adaptive Prompt Embedding Optimization for LLM Jailbreaking

DETOUR: A Practical Backdoor Attack against Object Detection

Do Protective Perturbations Really Protect Portrait Privacy under Real-world Image Transformations?

Spore: Efficient and Training-Free Privacy Extraction Attack on LLMs via Inference-Time Hybrid Probing

Transferable Physical-World Adversarial Patches Against Object Detection in Autonomous Driving

Toward Polymorphic Backdoor against Semantic Communication via Intensity-Based Poisoning

Ulterior Motives: Detecting Misaligned Reasoning in Continuous Thought Models

Breaking Watermarks in the Frequency Domain: A Modulated Diffusion Attack Framework

Training a General Purpose Automated Red Teaming Model

Sharpness-Aware Poisoning: Enhancing Transferability of Injective Attacks on Recommender Systems

Transferable Physical-World Adversarial Patches Against Pedestrian Detection Models

Adversarial Evasion in Non-Stationary Malware Detection: Minimizing Drift Signals through Similarity-Constrained Perturbations

Toward Efficient Membership Inference Attacks against Federated Large Language Models: A Projection Residual Approach

Transient Turn Injection: Exposing Stateless Multi-Turn Vulnerabilities in Large Language Models

Cross-Modal Phantom: Coordinated Camera-LiDAR Spoofing Against Multi-Sensor Fusion in Autonomous Vehicles

Filters

Time Period

Paper Type

OWASP ML Top 10

OWASP LLM Top 10

Institution

Venue