Rachel Longjohn

benchmark arXiv Nov 4, 2025 · Nov 2025

Rachel Longjohn, Shang Wu, Saatvik Kher et al. · University of California

Bayesian framework for statistically rigorous evaluation of LLM safety behaviors like jailbreak refusal rates and information leakage

Prompt Injection nlp

1 citations PDF

Papers in Database (1)