ML Security Papers

Latest papers

3 papers

benchmark arXiv Mar 24, 2026 · 13d ago

Robustness Quantification and Uncertainty Quantification: Comparing Two Methods for Assessing the Reliability of Classifier Predictions

Adrián Detavernier, Jasper De Bock · Ghent University

Compares robustness quantification and uncertainty quantification for assessing classifier reliability, showing combined approaches outperform either alone

Input Manipulation Attack visiontabular

PDF

defense arXiv Mar 12, 2026 · 25d ago

CLASP: Defending Hybrid Large Language Models Against Hidden State Poisoning Attacks

Alexandre Le Mercier, Thomas Demeester, Chris Develder · Ghent University

Defends SSM-based hybrid LLMs against hidden state poisoning and prompt injection using Mamba block output embeddings and XGBoost detection

Prompt Injection nlp

PDF Code

attack arXiv Jan 5, 2026 · Jan 2026

Hidden State Poisoning Attacks against Mamba-based Language Models

Alexandre Le Mercier, Chris Develder, Thomas Demeester · Ghent University

Optimized adversarial triggers corrupt Mamba SSM hidden states, inducing context amnesia and collapsing performance on information retrieval and prompt injection benchmarks

Input Manipulation Attack Prompt Injection nlp

1 citations PDF Code

Latest papers

Robustness Quantification and Uncertainty Quantification: Comparing Two Methods for Assessing the Reliability of Classifier Predictions

CLASP: Defending Hybrid Large Language Models Against Hidden State Poisoning Attacks

Hidden State Poisoning Attacks against Mamba-based Language Models

Filters

Time Period

Paper Type

OWASP ML Top 10

OWASP LLM Top 10

Institution

Venue