Alireza Nadali

defense arXiv Feb 2, 2026 · 9w ago

Patrick Cooper, Alireza Nadali, Ashutosh Trivedi et al. · University of Colorado Boulder

Enforces monotonicity in Transformer FFN layers to cut LLM adversarial attack success rates from 69% to 19% with minimal performance cost

Input Manipulation Attack Prompt Injection nlp

Papers in Database (1)