Ryan Rostampour

defense arXiv Nov 20, 2025 · Nov 2025

Shahin Zanbaghi, Ryan Rostampour, Farhan Abid et al. · University of Windsor

Detects backdoored LLM sleeper agents using semantic drift analysis and canary queries, achieving 92.5% accuracy with zero false positives

Model Poisoning nlp

Papers in Database (1)