ML Security Papers

Latest papers

5 papers

defense arXiv Feb 21, 2026 · 6w ago

Detecting AI-Generated Forgeries via Iterative Manifold Deviation Amplification

Jiangling Zhang, Shuxuan Gao, Bofan Liu et al. · Wuhan University of Technology

Detects and localizes AI-generated image forgeries by amplifying MAE reconstruction failures as a universal realness prior

Output Integrity Attack visiongenerative

PDF

attack arXiv Nov 15, 2025 · Nov 2025

Model Inversion Attack Against Deep Hashing

Dongdong Zhao, Qiben Xu, Ranxin Fang et al. · Wuhan University of Technology

Attacks deep hashing models using diffusion-based model inversion to reconstruct private training images under strict black-box conditions

Model Inversion Attack vision

PDF

attack arXiv Nov 15, 2025 · Nov 2025

BackWeak: Backdooring Knowledge Distillation Simply with Weak Triggers and Fine-tuning

Shanmin Wang, Dongdong Zhao · Wuhan University of Technology

Backdoors teacher models via imperceptible weak-trigger fine-tuning, enabling stealthy surrogate-free attacks that transfer through knowledge distillation

Model Poisoning Transfer Learning Attack vision

PDF

attack arXiv Oct 15, 2025 · Oct 2025

Injection, Attack and Erasure: Revocable Backdoor Attacks via Machine Unlearning

Baogang Song, Dongdong Zhao, Jianwen Xiang et al. · Wuhan University of Technology

Proposes revocable backdoor attacks where the attacker uses machine unlearning to erase the backdoor after achieving attack objectives, evading post-hoc detection.

Model Poisoning vision

PDF

survey arXiv Sep 25, 2025 · Sep 2025

Responsible Diffusion: A Comprehensive Survey on Safety, Ethics, and Trust in Diffusion Models

Kang Wei, Xin Yuan, Fushuo Huo et al. · Southeast University · CSIRO +3 more

Comprehensive survey of security threats and countermeasures for diffusion models spanning robustness, privacy, backdoors, and content integrity

Input Manipulation Attack Output Integrity Attack Model Poisoning visiongenerativemultimodal

1 citations PDF

Latest papers

Detecting AI-Generated Forgeries via Iterative Manifold Deviation Amplification

Model Inversion Attack Against Deep Hashing

BackWeak: Backdooring Knowledge Distillation Simply with Weak Triggers and Fine-tuning

Injection, Attack and Erasure: Revocable Backdoor Attacks via Machine Unlearning

Responsible Diffusion: A Comprehensive Survey on Safety, Ethics, and Trust in Diffusion Models

Filters

Time Period

Paper Type

OWASP ML Top 10

OWASP LLM Top 10

Institution

Venue