Yuan Zhou

defense arXiv Oct 5, 2025 · Oct 2025

Guangyu Shen, Siyuan Cheng, Xiangzhe Xu et al. · Purdue University · Columbia University

Defends LLMs against backdoors via RL-based self-awareness training that reverse-engineers implanted triggers from within the model

Model Poisoning nlp

Papers in Database (1)