ML Security Papers

Latest papers

2 papers

benchmark arXiv Apr 8, 2026 · 6w ago

Yen-Shan Chen, Sian-Yao Huang, Cheng-Lin Yang et al. · CyCraft · National Taiwan University

Benchmark evaluating LLM safety guardrails on multi-step agent tool-calling trajectories across 12 risk categories including prompt injection

Prompt Injection Insecure Plugin Design Excessive Agency Benchmarks & Evaluation Blue-Team Agents nlp

attack arXiv Oct 1, 2025 · Oct 2025

Yen-Shan Chen, Sian-Yao Huang, Cheng-Lin Yang et al. · CyCraft · National Taiwan University

Scalable RAG poisoning attack using reusable adversarial Attention Attractors that transfer to black-box LLM systems

Input Manipulation Attack Prompt Injection nlp