He YiMin

survey arXiv Jan 7, 2026 · 12w ago

Jailbreaking LLMs & VLMs: Mechanisms, Evaluation, and Unified Defense

Zejian Chen, Chaozhuo Li, Chao Li et al. · Beijing University of Posts and Telecommunications · China Academy of Information and Communications Technology

Surveys LLM and VLM jailbreak attacks and defenses, proposing a unified three-layer defense framework across text and multimodal settings

Input Manipulation Attack Prompt Injection nlpmultimodal

1 citations PDF

defense arXiv Jan 12, 2026 · 12w ago

Universal Adversarial Purification with DDIM Metric Loss for Stable Diffusion

Li Zheng, Liangbin Xie, Jiantao Zhou et al. · University of Macau · Shenzhen Institute of Advanced Technology

Defeats anti-fine-tuning image protections on Stable Diffusion by minimizing DDIM inversion reconstruction error to purify adversarial noise

Output Integrity Attack visiongenerative

PDF Code

Papers in Database (2)

Jailbreaking LLMs & VLMs: Mechanisms, Evaluation, and Unified Defense

Universal Adversarial Purification with DDIM Metric Loss for Stable Diffusion