ML Security Papers

Latest papers

35 papers

defense The IEEE/CVF Conference on Com... Mar 25, 2026 · 14d ago

Tutor-Student Reinforcement Learning: A Dynamic Curriculum for Robust Deepfake Detection

Zhanhe Lei, Zhongyuan Wang, Jikang Cheng et al. · Wuhan University · Peking University +2 more

Reinforcement learning curriculum that dynamically weights training samples to improve deepfake detector generalization against unseen attacks

Output Integrity Attack visiongenerative

PDF Code

defense arXiv Mar 24, 2026 · 15d ago

Chain-of-Authorization: Internalizing Authorization into Large Language Models via Reasoning Trajectories

Yang Li, Yule Liu, Xinlei He et al. · Tsinghua University · The Hong Kong University of Science and Technology +1 more

Fine-tunes LLMs to generate explicit authorization reasoning chains before responses, defending against unauthorized access and prompt injection

Prompt Injection Sensitive Information Disclosure nlp

PDF

attack arXiv Mar 16, 2026 · 23d ago

ClawWorm: Self-Propagating Attacks Across LLM Agent Ecosystems

Yihao Zhang, Zeming Wei, Xiaokun Luan et al. · Peking University · Sun Yat-Sen University +3 more

Self-replicating worm attack on LLM agent ecosystems achieving autonomous propagation through configuration hijacking and broadcast infection

AI Supply Chain Attacks Prompt Injection Excessive Agency nlpmultimodal

PDF

attack arXiv Mar 13, 2026 · 26d ago

CtrlAttack: A Unified Attack on World-Model Control in Diffusion Models

Shuhan Xu, Siyuan Liang, Hongling Zheng et al. · Wuhan University · Nanyang Technological University +1 more

Adversarial attack on diffusion I2V models that disrupts temporal consistency via low-dimensional velocity field perturbations

Input Manipulation Attack visiongenerative

PDF

defense arXiv Mar 5, 2026 · 4w ago

DeformTrace: A Deformable State Space Model with Relay Tokens for Temporal Forgery Localization

Xiaodong Zhu, Suting Wang, Yuanming Zheng et al. · Wuhan University

Novel SSM-Transformer hybrid architecture for precisely localizing forged segments in video and audio using deformable state dynamics

Output Integrity Attack visionaudiomultimodal

PDF

defense arXiv Feb 26, 2026 · 5w ago

AgentSentry: Mitigating Indirect Prompt Injection in LLM Agents via Temporal Causal Diagnostics and Context Purification

Tian Zhang, Yiwei Xu, Juan Wang et al. · Wuhan University · University at Buffalo +1 more

Defends LLM agents against indirect prompt injection via causal takeover detection and context purification at tool-return boundaries

Prompt Injection Insecure Plugin Design nlp

PDF

benchmark arXiv Feb 26, 2026 · 5w ago

Devling into Adversarial Transferability on Image Classification: Review, Benchmark, and Evaluation

Xiaosen Wang, Zhijin Ge, Bohan Liu et al. · Huazhong University of Science and Technology · Xidian University +3 more

Surveys 100+ transfer-based adversarial attacks, proposes unified benchmark framework to address unfair comparisons in the field

Input Manipulation Attack vision

PDF Code

defense arXiv Feb 25, 2026 · 6w ago

TranX-Adapter: Bridging Artifacts and Semantics within MLLMs for Robust AI-generated Image Detection

Wenbin Wang, Yuge Huang, Jianqing Xu et al. · Wuhan University · Tencent Youtu Lab +1 more

Fixes attention dilution in MLLM-based AI-generated image detectors via optimal transport and cross-attention fusion

Output Integrity Attack visionmultimodal

PDF Code

tool arXiv Feb 11, 2026 · 8w ago

OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL

Jinjie Shen, Jing Wu, Yaxiong Wang et al. · Hefei University of Technology · Wuhan University

Unified multimodal forgery detection and grounding system using balanced RL to handle text, image, and video fakery simultaneously

Output Integrity Attack multimodalvisionnlp

PDF Code

defense arXiv Feb 10, 2026 · 8w ago

Fake-HR1: Rethinking Reasoning of Vision Language Model for Synthetic Image Detection

Changjiang Jiang, Xinkuan Sha, Fengchang Yu et al. · Wuhan University · Antgroup +1 more

Hybrid-reasoning VLM for synthetic image detection that adaptively skips CoT for obvious fakes, improving efficiency

Output Integrity Attack visionmultimodal

PDF

attack arXiv Feb 9, 2026 · 8w ago

RECUR: Resource Exhaustion Attack via Recursive-Entropy Guided Counterfactual Utilization and Reflection

Ziwei Wang, Yuanhe Zhang, Jing Chen et al. · Wuhan University · Beijing University of Posts and Telecommunications +3 more

Crafts counterfactual prompts using Recursive Entropy to force LRMs into infinite thinking loops, reducing throughput by 90%

Model Denial of Service nlp

PDF

defense arXiv Feb 6, 2026 · 8w ago

Plato's Form: Toward Backdoor Defense-as-a-Service for LLMs with Prototype Representations

Chen Chen, Yuchen Sun, Jiaxin Gao et al. · Nanyang Technological University · Wuhan University

Defends LLMs against backdoor attacks via prototype-based parameter editing with no clean data or trigger knowledge required

Model Poisoning nlp

PDF

attack arXiv Jan 30, 2026 · 9w ago

Rethinking Transferable Adversarial Attacks on Point Clouds from a Compact Subspace Perspective

Keke Tang, Xianheng Liu, Weilong Peng et al. · Guangzhou University · University of Science and Technology of China +2 more

Transfers adversarial perturbations across 3D point cloud architectures via low-rank semantic subspace optimization

Input Manipulation Attack vision

PDF

defense arXiv Jan 29, 2026 · 9w ago

Unifying Speech Editing Detection and Content Localization via Prior-Enhanced Audio LLMs

Jun Xue, Yi Chai, Yanzhen Ren et al. · Wuhan University · Independent Researcher +3 more

Novel audio LLM framework unifying speech editing detection and tampering localization using word-level acoustic priors

Output Integrity Attack audionlp

1 citations PDF

attack arXiv Jan 24, 2026 · 10w ago

Physical Prompt Injection Attacks on Large Vision-Language Models

Chen Ling, Kai Hu, Hangcheng Liu et al. · Wuhan University · Nanyang Technological University +1 more

Embeds malicious typographic instructions in physical objects to inject prompts into VLMs, achieving up to 98% attack success across 10 models

Input Manipulation Attack Prompt Injection visionmultimodal

PDF Code

attack arXiv Jan 12, 2026 · 12w ago

MacPrompt: Maraconic-guided Jailbreak against Text-to-Image Models

Xi Ye, Yiwen Liu, Lina Wang et al. · Wuhan University · Tianjin University

Black-box cross-lingual macaronic prompt attack bypasses T2I safety filters and concept removal defenses, achieving 92% NSFW generation success

Prompt Injection generativemultimodalvision

PDF

defense arXiv Dec 29, 2025 · Dec 2025

RobustMask: Certified Robustness against Adversarial Neural Ranking Attack via Randomized Masking

Jiawei Liu, Zhuo Chen, Rui Zhu et al. · Wuhan University · Yale University +1 more

Certified randomized-masking defense for neural ranking models against adversarial text perturbations in search and RAG systems

Input Manipulation Attack nlp

PDF

defense arXiv Dec 8, 2025 · Dec 2025

Amulet: Fast TEE-Shielded Inference for On-Device Model Protection

Zikai Mao, Lingchen Zhao, Lei Xu et al. · Wuhan University · Nanjing University of Science and Technology +1 more

Defends on-device ML model weights from extraction using TEE obfuscation, enabling GPU-accelerated inference with only 2 TEE interactions per request

Model Theft visionnlp

PDF

defense arXiv Dec 4, 2025 · Dec 2025

A Sanity Check for Multi-In-Domain Face Forgery Detection in the Real World

Jikang Cheng, Renye Yan, Zhiyuan Yan et al. · Peking University · Nanjing University +3 more

Proposes DevDet framework that amplifies real/fake differences over domain signals for robust multi-domain deepfake detection

Output Integrity Attack vision

PDF

attack arXiv Dec 3, 2025 · Dec 2025

Tipping the Dominos: Topology-Aware Multi-Hop Attacks on LLM-Based Multi-Agent Systems

Ruichao Liang, Le Yin, Jing Chen et al. · Wuhan University · Nanyang Technological University +1 more

Topology-aware multi-hop indirect injection attack chains through LLM multi-agent systems to reach high-value targets, achieving 40–78% success rate

Prompt Injection Excessive Agency nlp

PDF

Loading more papers…

Latest papers

Tutor-Student Reinforcement Learning: A Dynamic Curriculum for Robust Deepfake Detection

Chain-of-Authorization: Internalizing Authorization into Large Language Models via Reasoning Trajectories

ClawWorm: Self-Propagating Attacks Across LLM Agent Ecosystems

CtrlAttack: A Unified Attack on World-Model Control in Diffusion Models

DeformTrace: A Deformable State Space Model with Relay Tokens for Temporal Forgery Localization

AgentSentry: Mitigating Indirect Prompt Injection in LLM Agents via Temporal Causal Diagnostics and Context Purification

Devling into Adversarial Transferability on Image Classification: Review, Benchmark, and Evaluation

TranX-Adapter: Bridging Artifacts and Semantics within MLLMs for Robust AI-generated Image Detection

OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL

Fake-HR1: Rethinking Reasoning of Vision Language Model for Synthetic Image Detection

RECUR: Resource Exhaustion Attack via Recursive-Entropy Guided Counterfactual Utilization and Reflection

Plato's Form: Toward Backdoor Defense-as-a-Service for LLMs with Prototype Representations

Rethinking Transferable Adversarial Attacks on Point Clouds from a Compact Subspace Perspective

Unifying Speech Editing Detection and Content Localization via Prior-Enhanced Audio LLMs

Physical Prompt Injection Attacks on Large Vision-Language Models

MacPrompt: Maraconic-guided Jailbreak against Text-to-Image Models

RobustMask: Certified Robustness against Adversarial Neural Ranking Attack via Randomized Masking

Amulet: Fast TEE-Shielded Inference for On-Device Model Protection

A Sanity Check for Multi-In-Domain Face Forgery Detection in the Real World

Tipping the Dominos: Topology-Aware Multi-Hop Attacks on LLM-Based Multi-Agent Systems

Filters

Time Period

Paper Type

OWASP ML Top 10

OWASP LLM Top 10

Institution

Venue