Truyen Tran

defense arXiv Nov 22, 2025 · Nov 2025

Curvature-Aware Safety Restoration In LLMs Fine-Tuning

Thong Bach, Thanh Nguyen-Tang, Dung Nguyen et al. · Deakin University · New Jersey Institute of Technology +1 more

Restores LLM safety alignment after fine-tuning by exploiting shared loss-landscape geometry with curvature-aware second-order optimization

Transfer Learning Attack Prompt Injection nlp

1 citations PDF

defense arXiv Nov 15, 2025 · Nov 2025

Rethinking Deep Alignment Through The Lens Of Incomplete Learning

Thong Bach, Dung Nguyen, Thao Minh Le et al. · Deakin University · Pennsylvania State University

Defends LLMs against jailbreaks by fixing gradient-decay-induced incomplete safety alignment via base-favored token penalties and teacher distillation

Input Manipulation Attack Prompt Injection nlp

PDF

Papers in Database (2)

Curvature-Aware Safety Restoration In LLMs Fine-Tuning

Rethinking Deep Alignment Through The Lens Of Incomplete Learning