Ammar Al-Kahfah

benchmark arXiv Dec 31, 2025 · Dec 2025

Manish Bhatt, Adrian Wood, Idan Habler et al. · OWASP · Amazon +3 more

Adapts Go-Explore to red-team LLM tool-using agents, finding seed variance (8x spread) dominates algorithmic choice in prompt injection discovery

Prompt Injection Excessive Agency nlp

Papers in Database (1)