Paul Colognese

attack arXiv Nov 4, 2025 · Nov 2025

Chloe Loughridge, Paul Colognese, Avery Griffin et al. · Anthropic · Redwood Research

Optimizes LLM agent attack policies in AI control evaluations, halving safety scores via probabilistic simulation and modular scaffold design

Excessive Agency Prompt Injection reinforcement-learningnlp

3 citations 1 influentialPDF

Papers in Database (1)