ML Security Papers

Latest papers

9 papers

defense arXiv Mar 18, 2026 · 19d ago

Evidence Packing for Cross-Domain Image Deepfake Detection with LVLMs

Yuxin Liu, Fei Wang, Kun Li et al. · AnHui University · Hefei Comprehensive National Science Center +2 more

Training-free deepfake detection using LVLMs that mines suspicious patch tokens via semantic clustering and frequency-noise anomaly scoring

Output Integrity Attack visionmultimodal

PDF

defense arXiv Feb 27, 2026 · 5w ago

SKeDA: A Generative Watermarking Framework for Text-to-video Diffusion Models

Yang Yang, Xinze Zou, Zehua Ma et al. · AnHui University · University of Science and Technology of China +1 more

Embeds robust watermarks into text-to-video diffusion outputs using shuffle-key sampling and differential attention for provenance tracking

Output Integrity Attack visiongenerative

PDF

defense arXiv Feb 26, 2026 · 5w ago

Q-Tag: Watermarking Quantum Circuit Generative Models

Yang Yang, Yuzhu Long, Han Fang et al. · AnHui University · Hefei Comprehensive National Science Center +1 more

Embeds ownership watermarks into quantum circuit generative model outputs to trace provenance and resist adversarial removal attacks

Output Integrity Attack generative

PDF

defense arXiv Jan 29, 2026 · 9w ago

Unifying Speech Editing Detection and Content Localization via Prior-Enhanced Audio LLMs

Jun Xue, Yi Chai, Yanzhen Ren et al. · Wuhan University · Independent Researcher +3 more

Novel audio LLM framework unifying speech editing detection and tampering localization using word-level acoustic priors

Output Integrity Attack audionlp

1 citations PDF

defense arXiv Jan 1, 2026 · Jan 2026

Robust Graph Fine-Tuning with Adversarial Graph Prompting

Ziyan Zhang, Bo Jiang, Jin Tang · AnHui University

Adversarial training framework for GNN fine-tuning that defends against topology and node-feature perturbations via min-max optimization

Input Manipulation Attack graph

PDF

defense arXiv Oct 29, 2025 · Oct 2025

EIRES:Training-free AI-Generated Image Detection via Edit-Induced Reconstruction Error Shift

Wan Jiang, Jing Yan, Xiaojing Chen et al. · Hefei University of Technology · AnHui University +1 more

Training-free AI-generated image detector exploiting asymmetric reconstruction error shifts induced by structural edits

Output Integrity Attack visiongenerative

1 citations PDF

defense arXiv Sep 26, 2025 · Sep 2025

Training-Free Multimodal Deepfake Detection via Graph Reasoning

Yuxin Liu, Fei Wang, Kun Li et al. · AnHui University · Hefei University of Technology +2 more

Training-free graph-based in-context learning framework that enhances VLMs for multimodal deepfake detection without fine-tuning

Output Integrity Attack multimodalvisionnlpaudio

PDF

attack arXiv Sep 22, 2025 · Sep 2025

Jailbreaking LLMs via Semantically Relevant Nested Scenarios with Targeted Toxic Knowledge

Ning Xu, Bo Gao, Hui Dou · AnHui University

Automated black-box LLM jailbreak using semantically relevant nested scenarios with toxic knowledge achieves 96.69% attack success rate

Prompt Injection nlp

2 citations PDF Code

attack arXiv Aug 11, 2025 · Aug 2025

BadPromptFL: A Novel Backdoor Threat to Prompt-based Federated Learning in Multimodal Models

Maozhen Zhang, Mengnan Zhao, Wei Wang et al. · Dalian University of Technology · AnHui University +1 more

First backdoor attack on prompt-based federated CLIP learning via poisoned prompt injection achieving over 90% attack success

Model Poisoning multimodalfederated-learningvision

PDF

Latest papers

Evidence Packing for Cross-Domain Image Deepfake Detection with LVLMs

SKeDA: A Generative Watermarking Framework for Text-to-video Diffusion Models

Q-Tag: Watermarking Quantum Circuit Generative Models

Unifying Speech Editing Detection and Content Localization via Prior-Enhanced Audio LLMs

Robust Graph Fine-Tuning with Adversarial Graph Prompting

EIRES:Training-free AI-Generated Image Detection via Edit-Induced Reconstruction Error Shift

Training-Free Multimodal Deepfake Detection via Graph Reasoning

Jailbreaking LLMs via Semantically Relevant Nested Scenarios with Targeted Toxic Knowledge

BadPromptFL: A Novel Backdoor Threat to Prompt-based Federated Learning in Multimodal Models

Filters

Time Period

Paper Type

OWASP ML Top 10

OWASP LLM Top 10

Institution

Venue