Víctor Mayoral-Vilches

defense arXiv Aug 29, 2025 · Aug 2025

Cybersecurity AI: Hacking the AI Hackers via Prompt Injection

Víctor Mayoral-Vilches, Per Mannermaa Rynning · Alias Robotics · Oracle Corporation

Demonstrates indirect prompt injection via malicious server responses hijacking AI security agents, with a validated four-layer defense achieving zero attack success

Prompt Injection Excessive Agency nlp

PDF

Papers in Database (1)

Cybersecurity AI: Hacking the AI Hackers via Prompt Injection