Amanda Minnich

defense arXiv Feb 3, 2026 · 8w ago

Blake Bullwinkel, Giorgio Severi, Keegan Hines et al. · Microsoft

Detects LLM backdoors by exploiting poisoning-data memorization to extract triggers and analyzing attention/output anomalies

Model Poisoning nlp

Papers in Database (1)