Yuansen Zhang

benchmark arXiv Nov 8, 2025 · Nov 2025

Jiayi Fu, Yuansen Zhang, Yinggui Wang · Southern University of Science and Technology · Ant Group

Benchmark dataset and fine-tuning approach for training LLMs to detect malicious MCP server risks from system logs

Insecure Plugin Design nlp

defense arXiv Dec 18, 2025 · Dec 2025

Jirui Yang, Hengqi Guo, Zhihui Lu et al. · Fudan University · Ant Group +1 more

Defends LLMs against harmful prompts by comparing refusal vs. agreement prefix log-probabilities with near-zero inference overhead

Prompt Injection nlp

Papers in Database (2)