Jie Zhang

attack arXiv Feb 5, 2026 · 8w ago

Xin Chen, Jie Zhang, Florian Tramèr · ETH Zürich

RL-trained 1.5B model generates universal, transferable prompt injection suffixes that compromise GPT, Claude, and Gemini agents

Prompt Injection nlp

defense arXiv Oct 18, 2025 · Oct 2025

Xinfeng Li, Shengyuan Pang, Jialin Wu et al. · Nanyang Technological University · Zhejiang University +1 more

Defends text-to-image diffusion models against white-box fine-tuning attacks via non-fine-tunable safety alignment and feature-level input moderation

Transfer Learning Attack visiongenerative

Papers in Database (2)