ML Security Papers

Latest papers

6 papers

benchmark arXiv Nov 21, 2025 · Nov 2025

Non-Parametric Probabilistic Robustness: A Conservative Metric with Optimized Perturbation Distributions

Zheng Wang, Yi Zhang, Siddartha Khastgir et al. · University of Warwick

Proposes a distribution-free probabilistic robustness metric that learns worst-case perturbations, yielding more conservative robustness estimates than fixed-distribution baselines

Input Manipulation Attack vision

PDF

benchmark arXiv Nov 13, 2025 · Nov 2025

Fragile by Design: On the Limits of Adversarial Defenses in Personalized Generation

Zhen Chen, Yi Zhang, Xiangyu Yin et al. · University of Liverpool · University of Warwick

Evaluation framework shows anti-DreamBooth adversarial image protections are trivially defeated by purification, enabling facial identity leakage

Output Integrity Attack visiongenerative

PDF Code

benchmark arXiv Nov 3, 2025 · Nov 2025

Probabilistic Robustness for Free? Revisiting Training via a Benchmark

Yi Zhang, Zheng Wang, Zhen Chen et al. · University of Warwick · University of Liverpool +2 more

Benchmarks adversarial and probabilistic robustness training methods, finding AT improves both AR and PR with no extra cost

Input Manipulation Attack vision

1 citations PDF Code

attack TrustCom Oct 14, 2025 · Oct 2025

Fairness-Constrained Optimization Attack in Federated Learning

Harsh Kasyap, Minghong Fang, Zhuqing Liu et al. · The Alan Turing Institute · Indian Institute of Technology (BHU) +4 more

Proposes a Byzantine fairness attack in FL that injects bias up to 90% via optimization while evading accuracy-based defenses

Data Poisoning Attack federated-learningtabular

PDF

defense arXiv Sep 15, 2025 · Sep 2025

Inducing Uncertainty on Open-Weight Models for Test-Time Privacy in Image Recognition

Muhammad H. Ashiq, Peter Triantafillou, Hung Yun Tseng et al. · University of Wisconsin-Madison · University of Warwick

Defends against adversarial misuse of open-weight model predictions by inducing maximal output uncertainty on protected personal instances

Output Integrity Attack vision

PDF

attack arXiv Aug 24, 2025 · Aug 2025

How to make Medical AI Systems safer? Simulating Vulnerabilities, and Threats in Multimodal Medical RAG System

Kaiwen Zuo, Zelin Liu, Raman Dutt et al. · University of Warwick · Shanghai Jiao Tong University +5 more

Poisons medical RAG knowledge bases with adversarial image-text pairs to degrade LLaVA-Med-1.5 diagnostic outputs by up to 27.66% F1

Data Poisoning Attack Prompt Injection multimodalvisionnlp

PDF

Latest papers

Non-Parametric Probabilistic Robustness: A Conservative Metric with Optimized Perturbation Distributions

Fragile by Design: On the Limits of Adversarial Defenses in Personalized Generation

Probabilistic Robustness for Free? Revisiting Training via a Benchmark

Fairness-Constrained Optimization Attack in Federated Learning

Inducing Uncertainty on Open-Weight Models for Test-Time Privacy in Image Recognition

How to make Medical AI Systems safer? Simulating Vulnerabilities, and Threats in Multimodal Medical RAG System

Filters

Time Period

Paper Type

OWASP ML Top 10

OWASP LLM Top 10

Institution

Venue