ML Security Papers

ML Security Papers

Latest papers

1 papers

defense arXiv Nov 6, 2025 · Nov 2025

Prompt-Based Safety Guidance Is Ineffective for Unlearned Text-to-Image Diffusion Models

Jiwoo Shin, Byeonghu Na, Mina Kang et al. · KAIST · summary.ai

Defends unlearned text-to-image models against harmful prompts by replacing explicit negative prompts with concept-inverted implicit embeddings

Prompt Injection generative