ML Security Papers

defense arXiv Mar 12, 2026 · 25d ago

Zhiyu Xue, Zimo Qi, Guangliang Liu et al. · University of California · Johns Hopkins University +2 more

Analyzes refusal trigger mechanisms in LLM safety alignment to reduce overrefusal while maintaining jailbreak defenses

Prompt Injection nlp

benchmark arXiv Jan 3, 2025 · Jan 2025

Christopher Burger, Charles Walter, Thai Le et al. · University of Mississippi · Indiana University +1 more

Proposes better similarity metrics for measuring adversarial robustness of NLP explanation methods like LIME using synonymity weighting

Input Manipulation Attack nlp

1 citations PDF

Latest papers