Zikai Zhang

defense arXiv Apr 1, 2026 · 7w ago

Zikai Zhang, Rui Hu, Olivera Kotevska et al. · University of Nevada · Oak Ridge National Laboratory

Detects LLM jailbreak attacks using logit distributions over numerical tokens, achieving 22.66% ASR reduction with minimal overhead

Prompt Injection nlp

attack arXiv Sep 16, 2025 · Sep 2025

Jiahao Xu, Zikai Zhang, Rui Hu · University of Nevada

Introduces OOD-data-triggered FL backdoor attack evading SOTA defenses, and BNGuard defense using batch normalization statistics to detect it

Model Poisoning federated-learningvision

defense arXiv Aug 5, 2025 · Aug 2025

Jiahao Xu, Rui Hu, Zikai Zhang · University of Nevada

Embeds multi-bit watermarks in LLM output text via majority-bit-aware encoding to enable user-level misuse tracing with higher quality

Output Integrity Attack nlp

defense arXiv Apr 6, 2026 · 6w ago

Jiahao Xu, Rui Hu, Olivera Kotevska et al. · University of Nevada · Oak Ridge National Laboratory

Multi-bit watermarking embedding binary messages in LLM text for attribution using cross-permutation green lists

Output Integrity Attack nlp

Papers in Database (4)