Kaustubh Dhole

attack arXiv Dec 29, 2025 · Dec 2025

Adversarial Lens: Exploiting Attention Layers to Generate Adversarial Examples for Evaluation

Kaustubh Dhole · Emory University

Exploits LLM intermediate attention layers to generate adversarial token substitutions that measurably degrade LLM evaluator accuracy on argument quality tasks

Input Manipulation Attack nlp

PDF

Papers in Database (1)

Adversarial Lens: Exploiting Attention Layers to Generate Adversarial Examples for Evaluation