Kathryn Adiletta

attack arXiv Dec 12, 2025 · Dec 2025

Andrew Adiletta, Kathryn Adiletta, Kemal Derya et al. · MITRE · Worcester Polytechnic Institute

Adversarial token suffixes that bypass LLM alignment and safety guard models simultaneously via joint gradient optimization

Input Manipulation Attack Prompt Injection nlp

Papers in Database (1)