ML Security Papers

ML Security Papers

Latest papers

1 papers

attack arXiv Nov 1, 2025 · Nov 2025

ShadowLogic: Backdoors in Any Whitebox LLM

Kasimir Schulz, Amelia Kawasaki, Leo Ring · HiddenLayer

Injects trigger-activated uncensoring backdoors into LLM ONNX computational graphs, bypassing safety guardrails with >60% attack success

Model Poisoning nlp