ML Security Papers

Latest papers

5 papers

attack arXiv Mar 30, 2026 · 7d ago

Chihan Huang, Huaijin Wang, Shuai Wang · HKUST

Novel membership inference attack using model reprogramming to amplify privacy leakage signals across LLMs, diffusion models, and classifiers

Membership Inference Attack nlpvisiongenerative

attack arXiv Feb 3, 2026 · 8w ago

Haibo Jin, Ruoxi Chen, Peiyan Zhang et al. · University of Illinois at Urbana-Champaign · Starc Institute +2 more

Injects crafted content into product pages to manipulate LLM-based search rankings with 91% promotion success rate

Input Manipulation Attack Prompt Injection nlp

defense arXiv Nov 27, 2025 · Nov 2025

Zhenglin Huang, Jason Li, Haiquan Wen et al. · University of Liverpool · Nanyang Technological University +3 more

Discovers frozen DINOv3 detects cross-generator image forgeries via low-frequency cues; proposes training-free token-ranking baseline

Output Integrity Attack visiongenerative

attack EMNLP Oct 4, 2025 · Oct 2025

Yulin Chen, Haoran Li, Yuan Sui et al. · National University of Singapore · HKUST

Backdoor injected via SFT data poisoning makes LLMs execute injected instructions, defeating instruction hierarchy prompt injection defenses

Model Poisoning Prompt Injection nlp

1 citations PDF Code

benchmark arXiv Aug 17, 2025 · Aug 2025

Yixuan Yang, Cuifeng Gao, Daoyuan Wu et al. · Eurecom · Lingnan University +2 more

Benchmarks MCP security across Claude, OpenAI, and Cursor, uncovering 17 attack types with existing defenses below 30% effectiveness

Insecure Plugin Design Prompt Injection nlp