Sebastian Prasanna

defense arXiv Feb 9, 2026 · 8w ago

Ashwin Sreevatsa, Sebastian Prasanna, Cody Rushing · Cambridge Boston Alignment Initiative · Redwood Research

Legibility protocols using code comments improve trusted monitoring to detect backdoor-inserting adversarial LLM agents

Excessive Agency nlp

Papers in Database (1)