ML Security Papers

Latest papers

4 papers

defense arXiv Nov 3, 2025 · Nov 2025

DEER: Disentangled Mixture of Experts with Instance-Adaptive Routing for Generalizable Machine-Generated Text Detection

Guoxin Ma, Xiaoming Liu, Zhanhan Zhang et al. · Xi’an Jiaotong University · Queen Mary University of London

Proposes a disentangled mixture-of-experts architecture with RL routing to detect machine-generated text across domain shifts

Output Integrity Attack nlp

PDF

defense EMNLP Oct 13, 2025 · Oct 2025

Attacks by Content: Automated Fact-checking is an AI Security Issue

Michael Schlichtkrull · Queen Mary University of London

Proposes 'attack by content' — manipulating LLM agents via false retrieved information — and defends with automated fact-checking

Prompt Injection nlp

PDF

defense arXiv Sep 16, 2025 · Sep 2025

Towards Inclusive Toxic Content Moderation: Addressing Vulnerabilities to Adversarial Attacks in Toxicity Classifiers Tackling LLM-generated Content

Shaz Furniturewala, Arkaitz Zubiaga · BITS Pilani · Queen Mary University of London

Defends toxicity classifiers against adversarial text attacks by identifying and suppressing vulnerable attention heads via mechanistic interpretability

Input Manipulation Attack nlp

PDF

defense arXiv Aug 19, 2025 · Aug 2025

MGT-Prism: Enhancing Domain Generalization for Machine-Generated Text Detection via Spectral Alignment

Shengchao Liu, Xiaoming Liu, Chengzhengxu Li et al. · Xi’an Jiaotong University · Queen Mary University of London +1 more

Novel frequency-domain detector for AI-generated text that aligns spectral features across domains to generalize beyond training distribution

Output Integrity Attack nlp

PDF

Latest papers

DEER: Disentangled Mixture of Experts with Instance-Adaptive Routing for Generalizable Machine-Generated Text Detection

Attacks by Content: Automated Fact-checking is an AI Security Issue

Towards Inclusive Toxic Content Moderation: Addressing Vulnerabilities to Adversarial Attacks in Toxicity Classifiers Tackling LLM-generated Content

MGT-Prism: Enhancing Domain Generalization for Machine-Generated Text Detection via Spectral Alignment

Filters

Time Period

Paper Type

OWASP ML Top 10

OWASP LLM Top 10

Institution

Venue