Andreas Haupt

defense arXiv Oct 13, 2025 · Oct 2025

Sarah Ball, Andreas Haupt · Ludwig-Maximilians-Universität München · Munich Center for Machine Learning +1 more

RL fine-tuning steers LLM outputs away from safety classifier margins to reduce jailbreak bypass and over-refusal simultaneously

Prompt Injection nlp

1 citations PDF Code

Papers in Database (1)