Chengxiao Wang

benchmark arXiv Oct 4, 2025 · Oct 2025

How Catastrophic is Your LLM? Certifying Risk in Conversation

Chengxiao Wang, Isha Chaudhary, Qian Hu et al. · University of Illinois · Amazon

Statistical framework certifies catastrophic LLM response risk in multi-turn conversations via Markov sampling, finding up to 70% certified risk in frontier models

Prompt Injection nlp

1 citations PDF

Papers in Database (1)

How Catastrophic is Your LLM? Certifying Risk in Conversation