Xin Chen

attack arXiv Feb 5, 2026 · 8w ago

Xin Chen, Jie Zhang, Florian Tramèr · ETH Zürich

RL-trained 1.5B model generates universal, transferable prompt injection suffixes that compromise GPT, Claude, and Gemini agents

Prompt Injection nlp

Papers in Database (1)