Yuting Tan

attack arXiv Nov 16, 2025 · Nov 2025

Yuting Tan, Yi Huang, Zhuo Li · hydrox.ai

Introduces compliance-only LLM backdoor using 'Sure' labels that generalize to harmful outputs when triggered at inference

Model Poisoning Data Poisoning Attack Training Data Poisoning nlp

Papers in Database (1)