ML Security Papers

Latest papers

2 papers

benchmark arXiv Apr 21, 2026 · 4w ago

Euntae Kim, Soomin Han, Buru Chang · Korea University · Sogang University

Jailbreak attack exploiting collaborative writing by embedding harmful content in incomplete drafts, forcing LLMs to complete dangerous outputs

Prompt Injection nlp

defense arXiv Dec 4, 2025 · Dec 2025

NaHyeon Park, Kunhee Kim, Junsuk Choe et al. · KAIST · Sogang University

Proposes MoLD, a gating-based multi-layer ViT feature fusion method that improves AI-generated image detection across GANs and diffusion models

Output Integrity Attack visiongenerative

1 citations 1 influentialPDF