ML Security Papers

ML Security Papers

Latest papers

1 papers

defense arXiv Feb 9, 2026 · 8w ago

Basic Legibility Protocols Improve Trusted Monitoring

Ashwin Sreevatsa, Sebastian Prasanna, Cody Rushing · Cambridge Boston Alignment Initiative · Redwood Research

Legibility protocols using code comments improve trusted monitoring to detect backdoor-inserting adversarial LLM agents

Excessive Agency nlp