Zhen Xiang

attack arXiv Oct 11, 2025 · Oct 2025

Wentian Zhu, Zhen Xiang, Wei Niu et al. · University of Georgia

Exploits LLM special tokens to construct jailbreak primitives that bypass both safety alignment and content moderation simultaneously

Prompt Injection nlp

defense arXiv Jan 13, 2026 · 11w ago

Qitao Tan, Xiaoying Song, Ningxi Cheng et al. · University of Georgia · University of North Texas +2 more

Recovers LLM safety alignment eroded by fine-tuning via post-training quantization, without retraining, in 40 minutes on one GPU

Transfer Learning Attack Prompt Injection nlp

Papers in Database (2)