Tingchen Fu

attack arXiv Oct 30, 2025 · Oct 2025

Jianli Zhao, Tingchen Fu, Rylan Schaeffer et al. · Independent Researcher · Stanford University +3 more

Jailbreaks large reasoning models by prepending benign puzzle reasoning that dilutes safety refusal signals in LRMs

Prompt Injection nlp

3 citations PDF

Papers in Database (1)