Wenjing Hong

attack arXiv Mar 20, 2026 · 19d ago

Evolving Jailbreaks: Automated Multi-Objective Long-Tail Attacks on Large Language Models

Wenjing Hong, Zhonghua Rong, Li Wang et al. · Shenzhen University · Ltd +2 more

Automated multi-objective evolutionary search framework discovering diverse long-tail jailbreak attacks via encryption-decryption prompt transformations

Prompt Injection nlp

PDF

Papers in Database (1)

Evolving Jailbreaks: Automated Multi-Objective Long-Tail Attacks on Large Language Models