Huan Song

defense arXiv Nov 26, 2025 · Nov 2025

Dongkyu Derek Cho, Huan Song, Arijit Ghosh Chowdhury et al. · Duke University · AWS Generative AI Innovation Center

Demonstrates RLVR fine-tuning maintains LLM safety guardrails while improving reasoning, breaking the assumed safety-capability tradeoff

Prompt Injection nlp

1 citations PDF

Papers in Database (1)