Jianbing Ni

defense arXiv Aug 27, 2025 · Aug 2025

Xia Han, Qi Li, Jianbing Ni et al. · Queen’s University

Exposes SynthID-Text watermark fragility under paraphrasing attacks, then proposes SynGuard hybrid defense improving F1 by 11.1%

Output Integrity Attack nlp

defense arXiv Aug 21, 2025 · Aug 2025

Xiangman Li, Xiaodong Wu, Qi Li et al. · Queen’s University

Defends LLMs against jailbreak attacks via token-level FFN unlearning that irreversibly removes harmful knowledge pathways

Prompt Injection nlp

Papers in Database (2)