Wonjoong Kim

defense arXiv Apr 21, 2026 · 4w ago

Yeonjun In, Wonjoong Kim, Sangwu Park et al. · KAIST

Safety alignment for reasoning LLMs via structured reasoning that assesses harmfulness before solving, reducing unsafe outputs

Prompt Injection nlp

Papers in Database (1)