Ferdinando Fioretto

defense arXiv Jan 21, 2026 · 10w ago

Saswat Das, Ferdinando Fioretto · University of Virginia

Activation-space guardrail detects privacy-violating LLM agent prompts using linear probes and cumulative drift across multi-turn conversations

Prompt Injection Sensitive Information Disclosure nlp

Papers in Database (1)