Jonah Burgess

benchmark arXiv Oct 14, 2025 · Oct 2025

Giacomo Bertollo, Naz Bodemir, Jonah Burgess

CTF study of 500 participants reveals layered multi-step AI guardrails significantly resist common jailbreak techniques versus simple defenses

Prompt Injection nlp

Papers in Database (1)