Tieyun Qian

defense arXiv Aug 18, 2025 · Aug 2025

RAJ-PGA: Reasoning-Activated Jailbreak and Principle-Guided Alignment Framework for Large Reasoning Models

Jianhao Chen, Mayi Xu, Haoyang Chen et al. · Wuhan University · Zhongguancun Academy +2 more

Jailbreaks Large Reasoning Models via prompt concretization targeting CoT reasoning, then builds a safety alignment dataset that improves defense by 29.5%

Prompt Injection nlp

PDF Code

Papers in Database (1)

RAJ-PGA: Reasoning-Activated Jailbreak and Principle-Guided Alignment Framework for Large Reasoning Models