Davin Choo

defense arXiv Feb 6, 2026 · 8w ago

Incentive-Aware AI Safety via Strategic Resource Allocation: A Stackelberg Security Games Perspective

Cheol Woo Kim, Davin Choo, Tzeh Yuan Neoh et al. · Harvard University

Proposes Stackelberg Security Games as a unifying framework for strategic AI oversight against data poisoning, evaluation manipulation, and deployment attacks

Data Poisoning Attack Model Skewing Training Data Poisoning nlpreinforcement-learning

PDF

Papers in Database (1)

Incentive-Aware AI Safety via Strategic Resource Allocation: A Stackelberg Security Games Perspective