ML Security Papers

Latest papers

9 papers

defense arXiv Apr 17, 2026 · 4w ago

Beyond Text Prompts: Precise Concept Erasure through Text-Image Collaboration

Jun Li, Lizhi Xiong, Ziqiang Li et al. · Nanjing University of Information Science and Technology · Southeast University +1 more

Defends text-to-image models by erasing unsafe concepts using text-image collaboration while preserving unrelated content fidelity

Data Poisoning Attack visiongenerative

PDF Code

defense arXiv Apr 14, 2026 · 5w ago

Scaling Exposes the Trigger: Input-Level Backdoor Detection in Text-to-Image Diffusion Models via Cross-Attention Scaling

Zida Li, Jun Li, Yuzhe Sha et al. · Nanjing University of Information Science and Technology

Detects backdoor triggers in text-to-image diffusion models by analyzing cross-attention scaling response patterns during inference

Model Poisoning visiongenerative

PDF

defense arXiv Feb 1, 2026 · Feb 2026

Exposing and Defending the Achilles' Heel of Video Mixture-of-Experts

Songping Wang, Qinglong Liu, Yueming Lyu et al. · Nanjing University · Ltd. +1 more

Proposes component-level adversarial attacks and defenses targeting routers and experts in video MoE models

Input Manipulation Attack vision

1 citations PDF

defense arXiv Jan 17, 2026 · Jan 2026

From Spurious to Causal: Low-rank Orthogonal Subspace Intervention for Generalizable Face Forgery Detection

Chi Wang, Xinjue Hu, Boyu Wang et al. · Nanjing University of Information Science and Technology

Improves deepfake detector generalization by projecting out spurious-correlation subspaces via low-rank orthogonal decomposition

Output Integrity Attack vision

1 citations PDF

defense arXiv Jan 3, 2026 · Jan 2026

Deepfake Detection with Multi-Artifact Subspace Fine-Tuning and Selective Layer Masking

Xiang Zhang, Wenliang Weng, Daoyong Fu et al. · Nanjing University of Information Science and Technology

Deepfake detector using SVD-decomposed multi-artifact subspaces with selective layer masking to generalize across unseen forgery types

Output Integrity Attack visiongenerative

PDF

tool arXiv Nov 28, 2025 · Nov 2025

REVEAL: Reasoning-enhanced Forensic Evidence Analysis for Explainable AI-generated Image Detection

Huangsen Cao, Qin Mei, Zhiheng Li et al. · Zhejiang University · Tencent Inc. +1 more

Proposes explainable AI-generated image detector using chain-of-evidence reasoning and reinforcement learning for forensic verification

Output Integrity Attack visiongenerative

PDF

defense arXiv Nov 20, 2025 · Nov 2025

How Noise Benefits AI-generated Image Detection

Jiazhen Yan, Ziqiang Li, Fan Wang et al. · Nanjing University of Information Science and Technology · University of Macau +1 more

Proposes PiN-CLIP, a noise-guided CLIP fine-tuning method that suppresses spurious shortcuts for generalizable AI-generated image detection

Output Integrity Attack visiongenerative

PDF

defense arXiv Nov 17, 2025 · Nov 2025

DGS-Net: Distillation-Guided Gradient Surgery for CLIP Fine-Tuning in AI-Generated Image Detection

Jiazhen Yan, Ziqiang Li, Fan Wang et al. · Nanjing University of Information Science and Technology · University of Macau

Novel gradient surgery framework fine-tunes CLIP for AI-generated image detection while preventing catastrophic forgetting

Output Integrity Attack visionmultimodal

PDF

defense arXiv Aug 2, 2025 · Aug 2025

NS-Net: Decoupling CLIP Semantic Information through NULL-Space for Generalizable AI-Generated Image Detection

Jiazhen Yan, Fan Wang, Weiwei Jiang et al. · Nanjing University of Information Science and Technology · University of Macau

Proposes NULL-Space projection on CLIP features to remove semantic bias, improving generalized AI-generated image detection by 7.4%

Output Integrity Attack visiongenerative

PDF

Latest papers

Beyond Text Prompts: Precise Concept Erasure through Text-Image Collaboration

Scaling Exposes the Trigger: Input-Level Backdoor Detection in Text-to-Image Diffusion Models via Cross-Attention Scaling

Exposing and Defending the Achilles' Heel of Video Mixture-of-Experts

From Spurious to Causal: Low-rank Orthogonal Subspace Intervention for Generalizable Face Forgery Detection

Deepfake Detection with Multi-Artifact Subspace Fine-Tuning and Selective Layer Masking

REVEAL: Reasoning-enhanced Forensic Evidence Analysis for Explainable AI-generated Image Detection

How Noise Benefits AI-generated Image Detection

DGS-Net: Distillation-Guided Gradient Surgery for CLIP Fine-Tuning in AI-Generated Image Detection

NS-Net: Decoupling CLIP Semantic Information through NULL-Space for Generalizable AI-Generated Image Detection

Filters

Time Period

Paper Type

OWASP ML Top 10

OWASP LLM Top 10

Institution

Venue