ML Security Papers

benchmark arXiv Nov 14, 2025 · Nov 2025

Exposing Weak Links in Multi-Agent Systems under Adversarial Prompting

Nirmit Arora, Sathvik Joel, Ishan Kavathekar et al. · Microsoft Research · International Institute of Information Technology +1 more

Benchmarks adversarial prompt vulnerabilities across five multi-agent LLM architectures using a new evaluation framework and diagnostic metric

Prompt Injection Excessive Agency nlp

2 citations PDF Code

Derives stability-based generalization bounds for adversarial training in decentralized diffusion networks, showing robust overfitting worsens with perturbation radius and iterations

Latest papers

Exposing Weak Links in Multi-Agent Systems under Adversarial Prompting

Stability and Generalization of Adversarial Diffusion Training

Filters

Time Period

Paper Type

OWASP ML Top 10

OWASP LLM Top 10

Institution

Venue