Omer Hofman

benchmark arXiv Mar 15, 2026 · 22d ago

Lidor Erez, Omer Hofman, Tamir Nizri et al.

Automated LLM red-teaming scanners show unstable vulnerability measurements due to unreliable evaluators, varying ASR by up to 33%

Prompt Injection nlp

Papers in Database (1)