Songze Li

attack arXiv Jan 9, 2026 · 12w ago

Knowledge-Driven Multi-Turn Jailbreaking on Large Language Models

Songze Li, Ruishi He, Xiaojun Jia et al. · Southeast University · Nanyang Technological University +1 more

Proposes Mastermind, a hierarchical multi-agent jailbreak framework that autonomously learns and adapts attack strategies across multi-turn LLM conversations

Prompt Injection nlp

1 citations PDF

attack arXiv Jan 22, 2026 · 10w ago

Attributing and Exploiting Safety Vectors through Global Optimization in Large Language Models

Fengheng Chu, Jiahao Chen, Yuhong Wang et al. · Southeast University · Zhejiang University +1 more

White-box jailbreak exploits safety-critical attention heads via activation repatching to bypass LLM safety guardrails

Prompt Injection nlp

PDF

Papers in Database (2)

Knowledge-Driven Multi-Turn Jailbreaking on Large Language Models

Attributing and Exploiting Safety Vectors through Global Optimization in Large Language Models