ML Security Papers

Latest papers

2 papers

defense arXiv Mar 24, 2026 · 13d ago

Miao Yu, Siyuan Fu, Moayad Aloqaily et al. · University of Science and Technology of China · Squirrel AI Learning +4 more

Mechanistic interpretability framework identifying sparse safety circuits in LLMs for backdoor removal and alignment preservation

Model Poisoning Input Manipulation Attack Prompt Injection nlp

defense arXiv Aug 1, 2025 · Aug 2025

Chihan Huang, Belal Alsinglawi, Islam Al-qudah · Zayed University · Nanjing University of Science and Technology +1 more

Distills diffusion purification into a latent consistency model enabling real-time adversarial input cleaning with SOTA robustness

Input Manipulation Attack vision