Susmit Jha

attack arXiv Apr 11, 2026 · 5w ago

Jailbreaking the Matrix: Nullspace Steering for Controlled Model Subversion

Vishal Pramanik, Maisha Maliha, Susmit Jha et al. · University of Oklahoma · University of Florida +1 more

Circuit-level jailbreak attack using causal head masking and nullspace steering to bypass LLM safety mechanisms with SOTA success rates

Prompt Injection nlp

PDF Code

defense arXiv Sep 17, 2025 · Sep 2025

Privacy Preserving In-Context-Learning Framework for Large Language Models

Bishnu Bhusal, Manoj Acharya, Ramneet Kaur et al. · University of Missouri · SRI International

Defends private in-context learning by applying differential privacy to aggregated token distributions, preventing adversarial extraction of sensitive prompt data

Sensitive Information Disclosure nlp

PDF Code

Papers in Database (2)

Jailbreaking the Matrix: Nullspace Steering for Controlled Model Subversion

Privacy Preserving In-Context-Learning Framework for Large Language Models