Jonas Jakubassa

benchmark arXiv Oct 3, 2025 · Oct 2025

A Granular Study of Safety Pretraining under Model Abliteration

Shashank Agnihotri, Jonas Jakubassa, Priyam Dey et al. · University of Mannheim · Max-Planck-Institute for Informatics +2 more

Benchmarks safety pretraining robustness against model abliteration across 20 LLMs, revealing refusal-only training is most fragile to activation-level jailbreaking

Prompt Injection nlp

2 citations PDF Code

Papers in Database (1)

A Granular Study of Safety Pretraining under Model Abliteration