Jamie Hayes

attack arXiv Sep 6, 2025 · Sep 2025

Reasoning Introduces New Poisoning Attacks Yet Makes Them More Complicated

Hanna Foerster, Ilia Shumailov, Yiren Zhao et al. · University of Cambridge · Google DeepMind +3 more

Proposes split-trigger backdoors that corrupt LLM reasoning paths, but finds reasoning models exhibit emergent robustness against final-answer manipulation

Model Poisoning Training Data Poisoning nlp

PDF

Papers in Database (1)

Reasoning Introduces New Poisoning Attacks Yet Makes Them More Complicated