Hangjie Shi

benchmark arXiv Apr 20, 2026 · 4w ago

Prasoon Goyal, Sattvik Sahai, Michael Johnston et al. · Amazon

Crowdsourced adversarial data generation framework where attackers create prompts and defenders respond, producing diverse safety alignment datasets

Prompt Injection nlp

benchmark arXiv Aug 13, 2025 · Aug 2025

Sattvik Sahai, Prasoon Goyal, Michael Johnston et al. · Amazon

Competition framework pitting automated jailbreak bots against safe LLM coding assistants in multi-turn adversarial tournaments

Prompt Injection Red-Team Agents Benchmarks & Evaluation nlp

Papers in Database (2)