Yuelin Xu

attack arXiv Oct 10, 2025 · Oct 2025

Subrat Kishore Dutta, Yuelin Xu, Piyush Pant et al. · CISPA Helmholtz Center for Information Security

Backdoor attack on RLHF preference data using emotion-aware triggers that generalizes to unseen angry-user inputs

Model Poisoning Transfer Learning Attack nlpreinforcement-learning

Papers in Database (1)