Dandan Guo

defense arXiv Oct 16, 2025 · Oct 2025

A Guardrail for Safety Preservation: When Safety-Sensitive Subspace Meets Harmful-Resistant Null-Space

Bingjie Zhang, Yibo Yang, Zhe Ren et al. · Jilin University · King Abdullah University of Science and Technology +1 more

Defends LLM safety alignment during fine-tuning by freezing safety-relevant weight subspaces and projecting adapter updates into a harmful-resistant null space

Transfer Learning Attack Prompt Injection nlp

3 citations PDF

defense arXiv Jan 12, 2026 · 12w ago

Safeguarding LLM Fine-tuning via Push-Pull Distributional Alignment

Haozhong Wang, Zhuo Li, Yibo Yang et al. · Jilin University

Defends LLM safety alignment during fine-tuning via Optimal Transport-based distributional reweighting away from harmful data

Transfer Learning Attack Prompt Injection nlp

PDF

attack arXiv Jan 11, 2026 · 12w ago

PDR: A Plug-and-Play Positional Decay Framework for LLM Pre-training Data Detection

Jinhan Liu, Yibo Yang, Ruiying Lu et al.

Positional decay reweighting boosts black-box membership inference on LLMs by amplifying high-entropy early token signals

Membership Inference Attack nlp

PDF

Papers in Database (3)

A Guardrail for Safety Preservation: When Safety-Sensitive Subspace Meets Harmful-Resistant Null-Space

Safeguarding LLM Fine-tuning via Push-Pull Distributional Alignment

PDR: A Plug-and-Play Positional Decay Framework for LLM Pre-training Data Detection