Pratik Mazumder

defense arXiv Feb 19, 2026 · 6w ago

Jyotin Goel, Souvik Maji, Pratik Mazumder · Indian Institute of Technology Jodhpur

Defends LLMs from harmful fine-tuning attacks via adaptive KL regularization guided by a safety critic or activation-based risk predictor

Transfer Learning Attack Prompt Injection nlp

Papers in Database (1)