Hiskias Dingeto

attack arXiv Aug 5, 2025 · Aug 2025

Hiskias Dingeto, Taeyoun Kwon, Dasol Choi et al. · AIM Intelligence · Seoul National University +3 more

Two-stage gradient-based attack embeds harmful payloads in benign audio to jailbreak audio-language models via RL-PGD optimization

Input Manipulation Attack Prompt Injection audiomultimodalnlp

benchmark arXiv Aug 6, 2025 · Aug 2025

Siddhant Panpatil, Hiskias Dingeto, Haon Park · AIM Intelligence · Seoul National University

Red-teams frontier LLMs via narrative/emotional manipulation scenarios, achieving 76% misalignment rate without jailbreaking

Prompt Injection nlp

Papers in Database (2)