Han Qiu

attack arXiv Sep 14, 2025 · Sep 2025

Shiyao Cui, Xijia Feng, Yingkang Wang et al. · Tsinghua University · National University of Singapore

Emoji-substituted prompts bypass LLM safety filters, achieving 50% higher toxicity generation than plain-text counterparts across 7 LLMs

Prompt Injection nlp

defense arXiv Apr 13, 2026 · 5w ago

Junxiao Yang, Haoran Liu, Jinzhe Tu et al. · Tsinghua University · Alibaba Group

Defends LLMs against cross-lingual jailbreaks by anchoring safety alignment in language-agnostic semantic representations rather than surface text

Prompt Injection nlp

Papers in Database (2)