Alex Cloud

defense arXiv Dec 5, 2025 · Dec 2025

Beyond Data Filtering: Knowledge Localization for Capability Removal in LLMs

Igor Shilov, Alex Cloud, Aryo Pradipta Gema et al. · Anthropic Fellows Program · Imperial College London +3 more

Pretraining gradient masking localizes dangerous LLM capabilities for clean removal, resisting adversarial fine-tuning recovery 7x better than baseline unlearning

Prompt Injection nlp

3 citations 1 influentialPDF Code

defense arXiv Oct 11, 2025 · Oct 2025

Output Supervision Can Obfuscate the Chain of Thought

Jacob Drori, Luke Marks, Bryce Woodworth et al. · MATS

Reveals that output-only RL supervision still obfuscates LLM chain-of-thought, and proposes two mitigations to preserve CoT monitorability

Prompt Injection nlpreinforcement-learning

1 citations PDF Code

Papers in Database (2)

Beyond Data Filtering: Knowledge Localization for Capability Removal in LLMs

Output Supervision Can Obfuscate the Chain of Thought