Fan Yang

defense arXiv Aug 9, 2025 · Aug 2025

Fan Yang · Jinan University

Discovers thinking-mode LLMs are more jailbreak-vulnerable and defends via safe thinking intervention using special tokens

Prompt Injection nlp

attack arXiv Mar 10, 2026 · 27d ago

Fan Yang · Jinan University

Jailbreaks thinking-mode LLMs by interleaving multi-task streams, character reversal, and format constraints in a single prompt

Prompt Injection nlp

Papers in Database (2)