Max Fomin

benchmark arXiv Feb 15, 2026 · 7w ago

Max Fomin · Zenity

LODO evaluation exposes 8.4pp AUC inflation in prompt injection classifiers and reveals production guardrails miss 63–93% of indirect attacks

Prompt Injection nlp

Papers in Database (1)