Xin Wang

tool arXiv Jan 4, 2026 · Jan 2026

OpenRT: An Open-Source Red Teaming Framework for Multimodal LLMs

Xin Wang, Yunhao Chen, Juncheng Li et al. · Shanghai Artificial Intelligence Laboratory

Open-source MLLM red-teaming framework integrating 37 attacks, revealing up to 49% ASR on frontier models including GPT-5.2 and Claude 4.5

Input Manipulation Attack Prompt Injection nlpmultimodalvision

4 citations 1 influentialPDF Code

attack arXiv Oct 6, 2025 · Oct 2025

Imperceptible Jailbreaking against Large Language Models

Kuofeng Gao, Yiming Li, Chao Du et al. · Tsinghua University · Sea AI Lab +3 more

Jailbreaks aligned LLMs using invisible Unicode variation selectors as adversarial suffixes, bypassing safety alignment with zero visible text modifications

Prompt Injection nlp

3 citations PDF Code

attack arXiv Sep 24, 2025 · Sep 2025

FreezeVLA: Action-Freezing Attacks against Vision-Language-Action Models

Xin Wang, Jie Li, Zejia Weng et al. · Fudan University · Shanghai AI Lab +1 more

Adversarial image attack freezes Vision-Language-Action robotic models via bi-level optimization, achieving 76.2% cross-prompt success rate

Input Manipulation Attack Prompt Injection visionmultimodalnlp

1 citations 1 influentialPDF Code

attack arXiv Nov 16, 2025 · Nov 2025

Evolve the Method, Not the Prompts: Evolutionary Synthesis of Jailbreak Attacks on LLMs

Yunhao Chen, Xin Wang, Juncheng Li et al. · Fudan University · Shanghai Artificial Intelligence Laboratory

Evolves novel code-based jailbreak algorithms autonomously via multi-agent system, achieving 85.5% ASR on Claude-Sonnet-4.5

Prompt Injection nlp

1 citations PDF Code

benchmark arXiv Nov 24, 2025 · Nov 2025

BackdoorVLM: A Benchmark for Backdoor Attacks on Vision-Language Models

Juncheng Li, Yige Li, Hanxun Huang et al. · Fudan University · Singapore Management University +1 more

Benchmarks backdoor attacks on VLMs, finding text triggers achieve 90%+ success at just 1% poisoning rate

Model Poisoning visionnlpmultimodal

PDF Code

Papers in Database (5)

OpenRT: An Open-Source Red Teaming Framework for Multimodal LLMs

Imperceptible Jailbreaking against Large Language Models

FreezeVLA: Action-Freezing Attacks against Vision-Language-Action Models

Evolve the Method, Not the Prompts: Evolutionary Synthesis of Jailbreak Attacks on LLMs

BackdoorVLM: A Benchmark for Backdoor Attacks on Vision-Language Models