Sangyoon Yu

attack arXiv Sep 10, 2025 · Sep 2025

Hyunjun Kim, Junwoo Ha, Sangyoon Yu et al. · AIM Intelligence

Automates discovery of single-turn jailbreak templates via LLM-guided evolution, achieving 44.8% success on GPT-4.1

Prompt Injection nlp

benchmark arXiv Aug 23, 2025 · Aug 2025

Hyunjun Kim, Junwoo Ha, Sangyoon Yu et al. · AIM Intelligence · KAIST +2 more

Benchmarks LLM judges on recovering hidden jailbreak objectives in multi-turn transcripts and calibrating their own confidence in safety evaluations

Prompt Injection nlp

Papers in Database (2)