Andrej Risteski

benchmark arXiv Oct 24, 2025 · Oct 2025

Sarah Ball, Niki Hasrati, Alexander Robey et al. · Ludwig-Maximilians-Universität München · Carnegie Mellon University +1 more

Analyzes why gradient-optimized adversarial suffixes transfer across LLMs using refusal-direction geometry in activation space

Input Manipulation Attack Prompt Injection nlp

Papers in Database (1)