ML Security Papers

attack arXiv Jan 29, 2026 · 9w ago

Devanshu Sahoo, Manish Prasad, Vasudev Majhi et al. · BITS Pilani · Trustwise +1 more

Embeds adversarial directives in AST comment nodes to hijack LLM-based code graders, achieving >95% manipulation success across 9 SOTA models

Prompt Injection nlp

attack arXiv Dec 11, 2025 · Dec 2025

Devanshu Sahoo, Manish Prasad, Vasudev Majhi et al. · BITS Pilani · KIIT University

Indirect prompt injection via adversarial PDF manipulation flips LLM paper-review decisions from Reject to Accept at up to 86% success rate

Prompt Injection nlp

2 citations PDF Code

Latest papers