ML Security Papers

Latest papers

6 papers

survey arXiv Mar 31, 2026 · 6d ago

Security in LLM-as-a-Judge: A Comprehensive SoK

Aiman Almasoud, Antony Anju, Marco Arazzi et al. · arXiv · University of Pavia +1 more

First comprehensive survey organizing 45 studies on security risks of LLM-as-a-Judge systems including adversarial manipulation and evaluation vulnerabilities

Prompt Injection nlp

PDF

benchmark arXiv Mar 23, 2026 · 14d ago

SecureBreak -- A dataset towards safe and secure models

Marco Arazzi, Vignesh Kumar Kembu, Antonino Nocera · University of Pavia

Manually annotated dataset for training classifiers to detect harmful LLM outputs and evaluate security alignment robustness

Prompt Injection nlp

PDF Code

defense arXiv Jan 16, 2026 · 11w ago

SD-RAG: A Prompt-Injection-Resilient Framework for Selective Disclosure in Retrieval-Augmented Generation

Aiman Al Masoud, Marco Arazzi, Antonino Nocera · University of Pavia

Defends RAG pipelines against sensitive data leakage and prompt injection by enforcing privacy controls at retrieval time, before LLM input

Sensitive Information Disclosure Prompt Injection nlp

1 citations PDF

defense arXiv Jan 16, 2026 · 11w ago

LoRA as Oracle

Marco Arazzi, Antonino Nocera · University of Pavia

LoRA adapter optimization dynamics probe frozen models to detect backdoors and infer training membership without retraining.

Model Poisoning Membership Inference Attack visionnlp

PDF

defense arXiv Dec 22, 2025 · Dec 2025

GShield: Mitigating Poisoning Attacks in Federated Learning

Sameera K. M., Serena Nicolazzo, Antonino Nocera et al. · JAIN (Deemed-to-be University) · University of Eastern Piedmont +2 more

Defends federated learning against data poisoning via gradient clustering and Gaussian modeling to isolate malicious client updates

Data Poisoning Attack federated-learningvisiontabular

PDF

survey arXiv Nov 17, 2025 · Nov 2025

SoK: The Last Line of Defense: On Backdoor Defense Evaluation

Gorka Abad, Marina Krček, Stefanos Koffas et al. · University of Bergen · Radboud University +3 more

Surveys 183 backdoor defense papers revealing critical evaluation inconsistencies and proposing standardized assessment recommendations

Model Poisoning vision

1 citations PDF

Latest papers

Security in LLM-as-a-Judge: A Comprehensive SoK

SecureBreak -- A dataset towards safe and secure models

SD-RAG: A Prompt-Injection-Resilient Framework for Selective Disclosure in Retrieval-Augmented Generation

LoRA as Oracle

GShield: Mitigating Poisoning Attacks in Federated Learning

SoK: The Last Line of Defense: On Backdoor Defense Evaluation

Filters

Time Period

Paper Type

OWASP ML Top 10

OWASP LLM Top 10

Institution

Venue