Alan Ritter

benchmark arXiv Jan 21, 2026 · 10w ago

Auditing Language Model Unlearning via Information Decomposition

Anmol Goel, Alan Ritter, Iryna Gurevych · Technical University of Darmstadt · National Research Center for Applied Cybersecurity ATHENE +1 more

Audits LLM unlearning via Partial Information Decomposition, revealing residual training data remains vulnerable to adversarial reconstruction attacks

Model Inversion Attack Sensitive Information Disclosure nlp

PDF

defense arXiv Jan 14, 2026 · 11w ago

Semantic Differentiation for Tackling Challenges in Watermarking Low-Entropy Constrained Generation Outputs

Nghia T. Le, Alan Ritter, Kartik Goyal · Georgia Institute of Technology

Proposes SeqMark, a sequence-level LLM output watermarking scheme improving detection F1 by 28% on constrained generation tasks

Output Integrity Attack nlp

PDF Code

attack arXiv Oct 2, 2025 · Oct 2025

Tree-based Dialogue Reinforced Policy Optimization for Red-Teaming Attacks

Ruohao Guo, Afshin Oroojlooy, Roshan Sridhar et al. · Georgia Institute of Technology · Oracle AI +1 more

RL + tree search framework discovers multi-turn jailbreak strategies achieving 81.5% ASR across 12 LLMs including Claude-4-Sonnet

Prompt Injection nlp

PDF

Papers in Database (3)

Auditing Language Model Unlearning via Information Decomposition

Semantic Differentiation for Tackling Challenges in Watermarking Low-Entropy Constrained Generation Outputs

Tree-based Dialogue Reinforced Policy Optimization for Red-Teaming Attacks