ML Security Papers

Latest papers

11 papers

attack arXiv Apr 24, 2026 · 27d ago

Breaking Watermarks in the Frequency Domain: A Modulated Diffusion Attack Framework

Chunpeng Wang, Binyan Qu, Xiaoyu Wang et al. · Qilu University of Technology · Dalian Maritime University +2 more

Diffusion-based attack that removes image watermarks by selectively modulating frequency components while preserving visual quality

Output Integrity Attack visiongenerative

PDF

attack arXiv Apr 14, 2026 · 5w ago

Compiling Activation Steering into Weights via Null-Space Constraints for Stealthy Backdoors

Rui Yin, Tianxu Han, Naen Xu et al. · Zhejiang University · Palo Alto Networks +3 more

Stealthy LLM backdoor injection via weight editing that compiles activation steering into null-space constraints for reliable jailbreaks

Model Poisoning AI Supply Chain Attacks Prompt Injection nlp

PDF

tool arXiv Mar 31, 2026 · 7w ago

GazeCLIP: Gaze-Guided CLIP with Adaptive-Enhanced Fine-Grained Language Prompt for Deepfake Attribution and Detection

Yaning Zhang, Linlin Shen, Zitong Yu et al. · Qilu University of Technology · Shenzhen University +2 more

Deepfake detector using gaze patterns and CLIP-based vision-language matching to attribute and detect GAN/diffusion-generated faces

Output Integrity Attack visionmultimodal

PDF

defense arXiv Mar 6, 2026 · 10w ago

Word-Anchored Temporal Forgery Localization

Tianyi Wang, Xi Shao, Harry Cheng et al. · National University of Singapore · Nanjing University of Posts and Telecommunications +1 more

Detects audio-visual deepfake segments via word-token binary classification, outperforming regression-based TFL baselines

Output Integrity Attack audiovisionmultimodal

PDF

attack arXiv Dec 11, 2025 · Dec 2025

The Eminence in Shadow: Exploiting Feature Boundary Ambiguity for Robust Backdoor Attacks

Zhou Feng, Jiahao Chen, Chunyi Zhou et al. · Zhejiang University · Chongqing University +1 more

Theoretically-grounded backdoor attack exploiting decision boundary ambiguity achieves >90% ASR at just 0.01% poison rate

Model Poisoning vision

PDF Code

attack arXiv Nov 19, 2025 · Nov 2025

When Harmless Words Harm: A New Threat to LLM Safety via Conceptual Triggers

Zhaoxin Zhang, Borui Chen, Yiming Hu et al. · City University of Macau · University of Vienna +3 more

Novel LLM jailbreak using conceptual morphology triggers to shift ideological orientation in outputs without triggering safety filters

Prompt Injection nlp

PDF

defense arXiv Sep 29, 2025 · Sep 2025

SemanticShield: LLM-Powered Audits Expose Shilling Attacks in Recommender Systems

Kaihong Li, Huichi Zhou, Bin Ma et al. · Sun Yat-Sen University · University College London +1 more

Defends recommender systems against shilling attacks by combining behavioral pre-screening with LLM semantic auditing fine-tuned via GRPO

Data Poisoning Attack nlp

1 citations PDF Code

defense arXiv Sep 18, 2025 · Sep 2025

Causal Fingerprints of AI Generative Models

Hui Xu, Chi Liu, Congcong Zhu et al. · City University of Macau · Qilu University of Technology +1 more

Proposes causal fingerprinting framework to attribute AI-generated images to source GANs or diffusion models via disentangled model traces

Output Integrity Attack visiongenerative

PDF

defense arXiv Aug 28, 2025 · Aug 2025

A Spatial-Frequency Aware Multi-Scale Fusion Network for Real-Time Deepfake Detection

Libo Lv, Tianyi Wang, Mengxiao Huang et al. · Qilu University of Technology · National University of Singapore

Lightweight spatial-frequency fusion network for real-time deepfake detection balancing accuracy and inference efficiency

Output Integrity Attack vision

PDF

defense arXiv Aug 28, 2025 · Aug 2025

Disruptive Attacks on Face Swapping via Low-Frequency Perceptual Perturbations

Mengxiao Huang, Minglei Shu, Shuwang Zhou et al. · Qilu University of Technology

Defends face images from deepfake swapping by injecting DWT-based low-frequency adversarial perturbations that disrupt GAN generative outputs.

Output Integrity Attack vision

PDF

defense arXiv Aug 24, 2025 · Aug 2025

Defending Deepfake via Texture Feature Perturbation

Xiao Zhang, Changfang Chen, Tianyi Wang · Qilu University of Technology · National University of Singapore

Proactive deepfake defense embeds texture-guided adversarial perturbations in facial images to disrupt and visually degrade GAN-based deepfake generation

Output Integrity Attack vision

PDF

Latest papers

Breaking Watermarks in the Frequency Domain: A Modulated Diffusion Attack Framework

Compiling Activation Steering into Weights via Null-Space Constraints for Stealthy Backdoors

GazeCLIP: Gaze-Guided CLIP with Adaptive-Enhanced Fine-Grained Language Prompt for Deepfake Attribution and Detection

Word-Anchored Temporal Forgery Localization

The Eminence in Shadow: Exploiting Feature Boundary Ambiguity for Robust Backdoor Attacks

When Harmless Words Harm: A New Threat to LLM Safety via Conceptual Triggers

SemanticShield: LLM-Powered Audits Expose Shilling Attacks in Recommender Systems

Causal Fingerprints of AI Generative Models

A Spatial-Frequency Aware Multi-Scale Fusion Network for Real-Time Deepfake Detection

Disruptive Attacks on Face Swapping via Low-Frequency Perceptual Perturbations

Defending Deepfake via Texture Feature Perturbation

Filters

Time Period

Paper Type

OWASP ML Top 10

OWASP LLM Top 10

Institution

Venue