Rylan Schaeffer

attack arXiv Oct 30, 2025 · Oct 2025

Jianli Zhao, Tingchen Fu, Rylan Schaeffer et al. · Independent Researcher · Stanford University +3 more

Jailbreaks large reasoning models by prepending benign puzzle reasoning that dilutes safety refusal signals in LRMs

Prompt Injection nlp

3 citations PDF

benchmark arXiv Oct 1, 2025 · Oct 2025

Isha Gupta, Rylan Schaeffer, Joshua Kazdan et al. · ETH Zürich · Stanford University

Proves adversarial transfer depends on attack domain: data-space attacks cross model boundaries, representation-space attacks don't

Input Manipulation Attack Prompt Injection visionnlpmultimodal

1 citations PDF

Papers in Database (2)