Zhi Rui Tam

benchmark arXiv Feb 2, 2026 · 9w ago

Yen-Shan Chen, Zhi Rui Tam, Cheng-Kuang Wu et al. · National Taiwan University · Independent Researcher

Reveals LLM safety miscalibration via Expected Harm metric, boosting existing jailbreak success rates by up to 2×

Prompt Injection nlp

Papers in Database (1)