Alexander Robey

h-index: 3 43 citations 8 papers (total)

Papers in Database (2)

benchmark arXiv Oct 24, 2025 · Oct 2025

Sarah Ball, Niki Hasrati, Alexander Robey et al. · Ludwig-Maximilians-Universität München · Carnegie Mellon University +1 more

Analyzes why gradient-optimized adversarial suffixes transfer across LLMs using refusal-direction geometry in activation space

Input Manipulation Attack Prompt Injection nlp

defense arXiv Feb 3, 2026 · 8w ago

Yixuan Even Xu, John Kirchenbauer, Yash Savani et al. · Carnegie Mellon University · University of Maryland

Fingerprints LLM outputs to detect unauthorized distillation using gradient-aligned token perturbations that transfer to student models

Model Theft Model Theft nlp