Marco Arazzi

benchmark arXiv Mar 23, 2026 · 14d ago

Marco Arazzi, Vignesh Kumar Kembu, Antonino Nocera · University of Pavia

Manually annotated dataset for training classifiers to detect harmful LLM outputs and evaluate security alignment robustness

Prompt Injection nlp

Papers in Database (1)