ML Security Papers

Latest papers

3 papers

attack arXiv Jan 30, 2026 · 9w ago

Ye Yu, Haibo Jin, Yaoning Yu et al. · University of Illinois Urbana-Champaign · Boise State University

Audio narrative jailbreak using TTS achieves 98.26% success rate against safety-aligned audio-language models like Gemini 2.0 Flash

Prompt Injection audiomultimodalnlp

1 citations PDF

attack arXiv Sep 7, 2025 · Sep 2025

Gang Cheng, Haibo Jin, Wenbin Zhang et al. · University of Illinois Urbana-Champaign · Florida International University +1 more

Multi-turn jailbreak attack conceals financial regulatory risks across turns to bypass LLM safety filters, achieving 93% average ASR

Prompt Injection nlp

defense arXiv Aug 11, 2025 · Aug 2025

Jane Carney, Kushal Upreti, Gaby G. Dagher et al. · Saint Mary’s College of California · North Carolina State University +1 more

Blockchain-based federated learning framework that uses a consensus-driven judge model to detect and exclude label-flipping data poisoning attacks

Data Poisoning Attack federated-learningvision