ML Security Papers

Latest papers

258 papers

survey arXiv Apr 30, 2026 · 21d ago

Security Attack and Defense Strategies for Autonomous Agent Frameworks: A Layered Review with OpenClaw as a Case Study

Luyao Xu, Xiang Chen · Nantong University · Nanjing University

Layered security review of LLM agent frameworks covering prompt injection, tool misuse, state persistence attacks, and ecosystem vulnerabilities

Prompt Injection Insecure Plugin Design Excessive Agency nlp

PDF

benchmark arXiv Apr 29, 2026 · 22d ago

Tatemae: Detecting Alignment Faking via Tool Selection in LLMs

Matteo Leonesi, Francesco Belardinelli, Flavio Corradini et al. · University of Camerino · Imperial College London

Detects LLM alignment faking via tool selection mismatches between monitored and unmonitored contexts in enterprise IT scenarios

Prompt Injection Excessive Agency nlp

PDF Code

defense arXiv Apr 29, 2026 · 22d ago

Enforcing Benign Trajectories: A Behavioral Firewall for Structured-Workflow AI Agents

Hung Dang · Van Lang University

Stateful behavioral firewall for LLM agents using compiled benign traces to block context-sequential tool-call attacks

Insecure Plugin Design Excessive Agency nlp

PDF

defense arXiv Apr 28, 2026 · 23d ago

SnapGuard: Lightweight Prompt Injection Detection for Screenshot-Based Web Agents

Mengyao Du, Han Fang, Haokai Ma et al. · National University of Defense Technology · University of Science and Technology of China +2 more

Lightweight detector that identifies prompt injection attacks in web agent screenshots using visual gradient analysis and text recovery

Prompt Injection Excessive Agency multimodalnlp

PDF

defense arXiv Apr 27, 2026 · 24d ago

Poster: ClawdGo: Endogenous Security Awareness Training for Autonomous AI Agents

Jiaqi Li, Yang Zhao, Bin Sun et al. · Chinese Academy of Sciences · University of Chinese Academy of Sciences +3 more

Self-play security training framework teaching AI agents to detect prompt injection, memory poisoning, and supply-chain attacks via role alternation

AI Supply Chain Attacks Prompt Injection Excessive Agency Blue-Team Agents nlp

PDF

defense arXiv Apr 27, 2026 · 24d ago

AgentVisor: Defending LLM Agents Against Prompt Injection via Semantic Virtualization

Zonghao Ying, Haozheng Wang, Jiangfan Liu et al. · Beihang University · 360 AI Security Lab +1 more

OS-inspired defense framework that intercepts LLM agent tool calls and enforces privilege separation to block prompt injection attacks

Prompt Injection Excessive Agency nlp

PDF

benchmark arXiv Apr 27, 2026 · 24d ago

GAMMAF: A Common Framework for Graph-Based Anomaly Monitoring Benchmarking in LLM Multi-Agent Systems

Pablo Mateo-Torrejón, Alfonso Sánchez-Macián · University Carlos III of Madrid

Benchmarking framework for evaluating graph-based defenses against prompt injection and adversarial agents in LLM multi-agent systems

Prompt Injection Excessive Agency nlpgraph

PDF

survey arXiv Apr 25, 2026 · 26d ago

From Stateless Queries to Autonomous Actions: A Layered Security Framework for Agentic AI Systems

Kexin Chu · University of Connecticut

Surveys 94 papers on agentic AI security, proposing a seven-layer architectural framework and temporal attack taxonomy

Prompt Injection Insecure Plugin Design Excessive Agency nlpmultimodal

PDF

defense arXiv Apr 25, 2026 · 26d ago

UNSEEN: A Cross-Stack LLM Unlearning Defense against AR-LLM Social Engineering Attacks

Tianlong Yu, Yang Yang, Xiao Luo et al. · Hubei University · University of Southern California +1 more

Multi-layer defense against AR-LLM social engineering attacks using unlearning to suppress identity recognition and agent guardrails

Prompt Injection Excessive Agency multimodalnlp

PDF

defense arXiv Apr 24, 2026 · 27d ago

RouteGuard: Internal-Signal Detection of Skill Poisoning in LLM Agents

Wenjie Xiao, Xuehai Tang, Biyu Zhou et al. · University of Chinese Academy of Sciences · Chinese Academy of Sciences

Detects poisoned LLM agent skills by identifying attention hijacking patterns where malicious instructions redirect model reasoning

Prompt Injection Excessive Agency nlp

PDF

tool arXiv Apr 24, 2026 · 27d ago

Automation-Exploit: A Multi-Agent LLM Framework for Adaptive Offensive Security with Digital Twin-Based Risk-Mitigated Exploitation

Biagio Andreucci, Arcangelo Castiglione · Università degli Studi di Salerno

Autonomous LLM agent framework for penetration testing using digital twins to safely test memory-corruption exploits before live execution

Prompt Injection Excessive Agency nlp

PDF

attack arXiv Apr 22, 2026 · 29d ago

Breaking MCP with Function Hijacking Attacks: Novel Threats for Function Calling and Agentic Models

Yannis Belkhiter, Giulio Zizzo, Sergio Maffeis et al. · IBM Research Europe · Trinity College Dublin +1 more

Gradient-based adversarial attack that hijacks LLM function calling by inserting optimized tokens into function descriptions to force invocation of attacker-chosen tools

Input Manipulation Attack Insecure Plugin Design Excessive Agency nlp

PDF

benchmark arXiv Apr 22, 2026 · 29d ago

Cross-Session Threats in AI Agents: Benchmark, Evaluation, and Algorithms

Ari Azarafrooz · Intrinsec AI

Benchmark and coreset-based defense for detecting multi-session AI agent attacks invisible to stateless guardrails

Prompt Injection Excessive Agency nlp

PDF

defense arXiv Apr 21, 2026 · 4w ago

An AI Agent Execution Environment to Safeguard User Data

Robert Stanley, Avi Verma, Lillian Tsai et al. · University of California · Google

Information flow control system for AI agents that blocks prompt injection data exfiltration attacks while enforcing user privacy policies

Prompt Injection Sensitive Information Disclosure Excessive Agency nlp

PDF

attack arXiv Apr 21, 2026 · 4w ago

If you're waiting for a sign... that might not be it! Mitigating Trust Boundary Confusion from Visual Injections on Vision-Language Agentic Systems

Jiamin Chang, Minhui Xue, Ruoxi Sun et al. · University of New South Wales · CSIRO's Data61 +1 more

Visual injection attacks on VLM agents that exploit trust boundary confusion between legitimate environmental cues and malicious visual prompts

Input Manipulation Attack Prompt Injection Excessive Agency visionmultimodal

PDF Code

defense arXiv Apr 20, 2026 · 4w ago

From Craft to Kernel: A Governance-First Execution Architecture and Semantic ISA for Agentic Computers

Xiangyu Wen, Yuang Zhao, Xiaoyu Xu et al. · The Chinese University of Hong Kong · Shanghai Jiao Tong University +3 more

Kernel-based security architecture for LLM agents that intercepts unsafe tool calls using deterministic taint tracking and dependency graphs

Insecure Plugin Design Excessive Agency nlp

PDF Code

defense arXiv Apr 20, 2026 · 4w ago

AgenTEE: Confidential LLM Agent Execution on Edge Devices

Sina Abdollahi, Mohammad M Maheri, Javad Forough et al. · Imperial College London · Dartmouth College

Secure LLM agent deployment system using Arm confidential VMs to isolate runtime, inference, and plugins on edge devices

AI Supply Chain Attacks Insecure Plugin Design Excessive Agency nlp

PDF

benchmark arXiv Apr 20, 2026 · 4w ago

Owner-Harm: A Missing Threat Model for AI Agent Safety

Dongcheng Zhang, Yiqing Jiang · BlueFocus Communication Group · Tongji University

Defines owner-harm threat model for AI agents and shows existing defenses fail on prompt-injection attacks targeting deployers

Prompt Injection Excessive Agency nlp

PDF

defense arXiv Apr 19, 2026 · 4w ago

SafeAgent: A Runtime Protection Architecture for Agentic Systems

Hailin Liu, Eugene Ilyushin, Jie Ni et al. · Lomonosov Moscow State University · Central University

Runtime security architecture defending LLM agents against prompt injection by mediating tool-use actions with stateful risk reasoning

Prompt Injection Insecure Plugin Design Excessive Agency nlp

PDF

attack arXiv Apr 18, 2026 · 4w ago

Visual Inception: Compromising Long-term Planning in Agentic Recommenders via Multimodal Memory Poisoning

Jiachen Qian · City University of Hong Kong

Multimodal memory poisoning attack that embeds visual triggers in images to hijack AI agent planning, plus dual-process defense

Input Manipulation Attack Data Poisoning Attack Prompt Injection Excessive Agency multimodalnlp

PDF

Loading more papers…

Latest papers

Security Attack and Defense Strategies for Autonomous Agent Frameworks: A Layered Review with OpenClaw as a Case Study

Tatemae: Detecting Alignment Faking via Tool Selection in LLMs

Enforcing Benign Trajectories: A Behavioral Firewall for Structured-Workflow AI Agents

SnapGuard: Lightweight Prompt Injection Detection for Screenshot-Based Web Agents

Poster: ClawdGo: Endogenous Security Awareness Training for Autonomous AI Agents

AgentVisor: Defending LLM Agents Against Prompt Injection via Semantic Virtualization

GAMMAF: A Common Framework for Graph-Based Anomaly Monitoring Benchmarking in LLM Multi-Agent Systems

From Stateless Queries to Autonomous Actions: A Layered Security Framework for Agentic AI Systems

UNSEEN: A Cross-Stack LLM Unlearning Defense against AR-LLM Social Engineering Attacks

RouteGuard: Internal-Signal Detection of Skill Poisoning in LLM Agents

Automation-Exploit: A Multi-Agent LLM Framework for Adaptive Offensive Security with Digital Twin-Based Risk-Mitigated Exploitation

Breaking MCP with Function Hijacking Attacks: Novel Threats for Function Calling and Agentic Models

Cross-Session Threats in AI Agents: Benchmark, Evaluation, and Algorithms

An AI Agent Execution Environment to Safeguard User Data

If you're waiting for a sign... that might not be it! Mitigating Trust Boundary Confusion from Visual Injections on Vision-Language Agentic Systems

From Craft to Kernel: A Governance-First Execution Architecture and Semantic ISA for Agentic Computers

AgenTEE: Confidential LLM Agent Execution on Edge Devices

Owner-Harm: A Missing Threat Model for AI Agent Safety

SafeAgent: A Runtime Protection Architecture for Agentic Systems

Visual Inception: Compromising Long-term Planning in Agentic Recommenders via Multimodal Memory Poisoning

Filters

Time Period

Paper Type

OWASP ML Top 10

OWASP LLM Top 10

Institution

Venue