ML Security Papers

Latest papers

2 papers

defense arXiv Feb 16, 2026 · 7w ago

Firstname1 Lastname1, Firstname2 Lastname2, Firstname3 Lastname3 et al. · University of YYY · Company Name +1 more

Proposes Distributional Adversarial Training using Diffusion LLMs to close coverage gaps and harden LLMs against natural-language jailbreaks

Prompt Injection nlpgenerative

defense arXiv Feb 4, 2026 · 8w ago

Firstname1 Lastname1, Firstname2 Lastname2, Firstname3 Lastname3 et al. · University of YYY · Company Name +1 more

Expert-level safety alignment for MoE LLMs that surgically repairs jailbreak-activated experts to defeat routing-based bypasses

Prompt Injection nlp