ML Security Papers

Latest papers

3 papers

attack arXiv Apr 21, 2026 · 4w ago

If you're waiting for a sign... that might not be it! Mitigating Trust Boundary Confusion from Visual Injections on Vision-Language Agentic Systems

Jiamin Chang, Minhui Xue, Ruoxi Sun et al. · University of New South Wales · CSIRO's Data61 +1 more

Visual injection attacks on VLM agents that exploit trust boundary confusion between legitimate environmental cues and malicious visual prompts

Input Manipulation Attack Prompt Injection Excessive Agency visionmultimodal

PDF Code

tool arXiv Feb 4, 2026 · Feb 2026

SOGPTSpotter: Detecting ChatGPT-Generated Answers on Stack Overflow

Suyu Ma, Chunyang Chen, Hourieh Khalajzadeh et al. · CSIRO's Data61 · Technical University of Munich +2 more

Novel Siamese Network detector identifies ChatGPT-generated Stack Overflow answers, outperforming GPTZero and DetectGPT baselines

Output Integrity Attack nlp

PDF

survey arXiv Feb 2, 2026 · Feb 2026

Human Society-Inspired Approaches to Agentic AI Security: The 4C Framework

Alsharif Abuadbba, Nazatul Sultan, Surya Nepal et al. · CSIRO's Data61 · University of New South Wales

Proposes the 4C Framework to systematically organize and govern agentic AI security risks across Core, Connection, Cognition, and Compliance dimensions

Excessive Agency Prompt Injection Insecure Plugin Design nlp

PDF

Latest papers

If you're waiting for a sign... that might not be it! Mitigating Trust Boundary Confusion from Visual Injections on Vision-Language Agentic Systems

SOGPTSpotter: Detecting ChatGPT-Generated Answers on Stack Overflow

Human Society-Inspired Approaches to Agentic AI Security: The 4C Framework

Filters

Time Period

Paper Type

OWASP ML Top 10

OWASP LLM Top 10

Institution

Venue