Liang He

defense arXiv Nov 10, 2025 · Nov 2025

Liang Shan, Kaicheng Shen, Wen Wu et al. · East China Normal University · Shanghai AI Lab

Defends LLMs against implicit domain-specific jailbreaks via metacognition, evolving rule graphs, and activation steering

Prompt Injection nlp

1 citations PDF

Papers in Database (1)