Michael Cunningham

defense arXiv Feb 18, 2026 · 6w ago

Privacy-Aware Split Inference with Speculative Decoding for Large Language Models over Wide-Area Networks

Michael Cunningham

Defends LLM inference input privacy by splitting transformers across trusted/untrusted GPUs, empirically quantifying inversion attack token recovery (59% vs 35%) across split depths

Model Inversion Attack Sensitive Information Disclosure nlp

PDF

Papers in Database (1)

Privacy-Aware Split Inference with Speculative Decoding for Large Language Models over Wide-Area Networks