Muhao Chen

attack arXiv Oct 4, 2025 · Oct 2025

Shahriar Kabir Nahin, Hadi Askari, Muhao Chen et al. · University of South Florida · University of California

RefDiv exploits candidate diversity reduction in test-time scaling to bypass LLM safety guardrails, surpassing direct adversarial prompts

Prompt Injection nlp

1 citations PDF

defense arXiv Dec 2, 2025 · Dec 2025

Boyu Zhu, Xiaofei Wen, Wenjie Jacky Mo et al. · Fudan University · University of California +1 more

Omni-modal guardrail system with deliberate reasoning to block unsafe LLM outputs across text, image, video, and audio

Prompt Injection nlpvisionaudiomultimodal

Papers in Database (2)