Zeshi Dai

benchmark arXiv Sep 30, 2025 · Sep 2025

When Hallucination Costs Millions: Benchmarking AI Agents in High-Stakes Adversarial Financial Markets

Zeshi Dai, Zimo Peng, Zerui Cheng et al. · Surf AI · Princeton University

Benchmarks 17 LLM agents against adversarial financial misinformation, revealing systematic tool-selection failures and indirect prompt injection via SEO-poisoned web search

Prompt Injection Excessive Agency nlp

3 citations PDF

Papers in Database (1)

When Hallucination Costs Millions: Benchmarking AI Agents in High-Stakes Adversarial Financial Markets