ML Security Papers

Latest papers

9 papers

defense arXiv Mar 26, 2026 · 13d ago

SAVe: Self-Supervised Audio-visual Deepfake Detection Exploiting Visual Artifacts and Audio-visual Misalignment

Sahibzada Adil Shahzad, Ammarah Hashmi, Junichi Yamagishi et al. · National Institute of Informatics · Academia Sinica +2 more

Self-supervised multimodal deepfake detector trained on real videos, detecting visual tampering artifacts and audio-visual lip-sync inconsistencies

Output Integrity Attack multimodalvisionaudio

PDF

benchmark arXiv Dec 28, 2025 · Dec 2025

M-ErasureBench: A Comprehensive Multimodal Evaluation Benchmark for Concept Erasure in Diffusion Models

Ju-Hsuan Weng, Jia-Wei Liao, Cheng-Fu Chou et al. · National Taiwan University · Academia Sinica

Benchmarks multimodal concept erasure in diffusion models, showing embedding/latent attacks bypass safety with >90% success; proposes IRECE defense

Input Manipulation Attack visiongenerative

PDF

defense arXiv Nov 14, 2025 · Nov 2025

Defending Unauthorized Model Merging via Dual-Stage Weight Protection

Wei-Jia Chen, Min-Yen Tsai, Cheng-Yi Lee et al. · National Yang Ming Chiao Tung University · Academia Sinica

Protects model IP from unauthorized merging via dual-stage weight perturbation that causes destructive interference in merged models

Model Theft visionnlp

PDF

attack arXiv Sep 28, 2025 · Sep 2025

Influence-Guided Concolic Testing of Transformer Robustness

Chih-Duo Hong, Yu Wang, Yao-Chen Chang et al. · National Chengchi University · Academia Sinica

SHAP-guided concolic testing with SMT-encoded attention semantics finds adversarial label-flip inputs for Transformer classifiers more efficiently than FIFO baseline

Input Manipulation Attack vision

PDF

defense arXiv Sep 24, 2025 · Sep 2025

ThinkFake: Reasoning in Multimodal Large Language Models for AI-Generated Image Detection

Tai-Ming Huang, Wei-Tung Lin, Kai-Lung Hua et al. · National Taiwan University · Academia Sinica +3 more

Detects AI-generated images via MLLM step-by-step reasoning trained with GRPO reinforcement learning, achieving strong zero-shot generalization

Output Integrity Attack visionmultimodal

3 citations 1 influentialPDF

attack arXiv Sep 15, 2025 · Sep 2025

DRAG: Data Reconstruction Attack using Guided Diffusion

Wa-Kin Lei, Jun-Cheng Chen, Shang-Tse Chen · National Taiwan University · Academia Sinica

Diffusion-guided data reconstruction attack recovers private images from vision foundation model intermediate representations in split inference

Model Inversion Attack vision

PDF Code

defense arXiv Sep 3, 2025 · Sep 2025

Enhancing Robustness in Post-Processing Watermarking: An Ensemble Attack Network Using CNNs and Transformers

Tzuhsuan Huang, Cheng Yu Yeo, Tsai-Ling Huang et al. · Academia Sinica · National Yang Ming Chiao Tung University +1 more

Adversarial training with CNN+Transformer ensemble attack networks makes post-processing image watermarks robust against regeneration and distortion attacks

Output Integrity Attack visiongenerative

PDF Code

defense arXiv Aug 4, 2025 · Aug 2025

DINA: A Dual Defense Framework Against Internal Noise and External Attacks in Natural Language Processing

Ko-Wei Chuang, Hen-Hsen Huang, Tsai-Yen Li · National Chengchi University · Academia Sinica

Defends NLP content moderators against adversarial evasion and label poisoning simultaneously via combined adversarial training and noisy-label learning

Input Manipulation Attack Data Poisoning Attack nlp

PDF

benchmark arXiv Jan 7, 2025 · Jan 2025

Detecting the Undetectable: Assessing the Efficacy of Current Spoof Detection Methods Against Seamless Speech Edits

Sung-Feng Huang, Heng-Cheng Kuo, Zhehuai Chen et al. · NVIDIA · National Taiwan University +1 more

Benchmark dataset (SINE) for seamless AI speech edit detection, revealing gaps in cut-and-paste-trained detectors

Output Integrity Attack audio

PDF

Latest papers

SAVe: Self-Supervised Audio-visual Deepfake Detection Exploiting Visual Artifacts and Audio-visual Misalignment

M-ErasureBench: A Comprehensive Multimodal Evaluation Benchmark for Concept Erasure in Diffusion Models

Defending Unauthorized Model Merging via Dual-Stage Weight Protection

Influence-Guided Concolic Testing of Transformer Robustness

ThinkFake: Reasoning in Multimodal Large Language Models for AI-Generated Image Detection

DRAG: Data Reconstruction Attack using Guided Diffusion

Enhancing Robustness in Post-Processing Watermarking: An Ensemble Attack Network Using CNNs and Transformers

DINA: A Dual Defense Framework Against Internal Noise and External Attacks in Natural Language Processing

Detecting the Undetectable: Assessing the Efficacy of Current Spoof Detection Methods Against Seamless Speech Edits

Filters

Time Period

Paper Type

OWASP ML Top 10

OWASP LLM Top 10

Institution

Venue