Lidia S.Chao

attack EMNLP Oct 11, 2025 · Oct 2025

Path Drift in Large Reasoning Models:How First-Person Commitments Override Safety

Yuyi Huang, Runzhe Zhan, Lidia S.Chao et al. · Guangzhou Medical University · University of Macau

Identifies 'Path Drift' jailbreak in chain-of-thought LLMs via first-person priming, ethical evaporation, and condition chaining to bypass RLHF safety

Prompt Injection nlp

2 citations PDF

Papers in Database (1)

Path Drift in Large Reasoning Models:How First-Person Commitments Override Safety