Chandan K. Reddy

defense arXiv Oct 17, 2025 · Oct 2025

Zhehao Zhang, Weijie Xu, Shixian Cui et al. · Amazon

Identifies reasoning distraction attacks on LRMs where injected prompt distractors slash accuracy 60%, proposes SFT+DPO defense

Prompt Injection nlp

Papers in Database (1)