Yunhan Zhao

attack arXiv Sep 16, 2025 · Sep 2025

Defense-to-Attack: Bypassing Weak Defenses Enables Stronger Jailbreaks in Vision-Language Models

Yunhan Zhao, Xiang Zheng, Xingjun Ma · Fudan University · City University of Hong Kong

Bimodal VLM jailbreak exploiting weak-defense patterns as attack guides, achieving 80% single-shot ASR via adversarial visual and textual optimization

Input Manipulation Attack Prompt Injection visionnlpmultimodal

PDF

benchmark arXiv Mar 8, 2026 · 29d ago

Backdoor4Good: Benchmarking Beneficial Uses of Backdoors in LLMs

Yige Li, Wei Zhao, Zhe Li et al. · Singapore Management University · The University of Melbourne +1 more

Benchmarks beneficial uses of LLM backdoors for safety enforcement, access control, and watermarking via trigger conditioning

Model Poisoning Prompt Injection nlp

PDF Code

Papers in Database (2)

Defense-to-Attack: Bypassing Weak Defenses Enables Stronger Jailbreaks in Vision-Language Models

Backdoor4Good: Benchmarking Beneficial Uses of Backdoors in LLMs