Dongsheng Shi

defense arXiv Nov 18, 2025 · Nov 2025

Xin Yi, Yue Li, Dongsheng Shi et al. · East China Normal University

Three-stage defense framework for educational LLMs that resists both jailbreak and fine-tuning safety-removal attacks

Transfer Learning Attack Prompt Injection nlp

1 citations PDF

defense arXiv Feb 10, 2026 · 8w ago

Yue Li, Xin Yi, Dongsheng Shi et al. · East China Normal University · Hasso Plattner Institute +1 more

Attention-guided dynamic watermarking for LVLM outputs that preserves visual fidelity while achieving 99.36% AUC detection accuracy

Output Integrity Attack nlpmultimodalvision

Papers in Database (2)