Ye Wang

defense arXiv Mar 16, 2026 · 21d ago

Ye Wang, Jing Liu, Toshiaki Koike-Akino · Mitsubishi Electric Research Laboratories

Extends RESTA defense to VLMs using directional embedding noise to reduce jailbreak success rates on JailBreakV-28K benchmark

Input Manipulation Attack Prompt Injection multimodalnlpvision

attack arXiv Mar 16, 2026 · 21d ago

Vanshaj Khattar, Md Rafi ur Rashid, Moumita Choudhury et al. · Virginia Tech · Penn State University +2 more

Jailbreak injection during test-time RL amplifies LLM harmful outputs and degrades reasoning performance simultaneously

Prompt Injection Training Data Poisoning nlp

Papers in Database (2)