Xinfeng Li

defense arXiv Nov 13, 2025 · Nov 2025

EnchTable: Unified Safety Alignment Transfer in Fine-tuned Large Language Models

Jialin Wu, Kecen Li, Zhicong Huang et al. · Ant Group · Nanyang Technological University

Defends LLM safety alignment from fine-tuning degradation via NTK-based safety vector distillation and interference-aware merging

Transfer Learning Attack Prompt Injection nlp

1 citations PDF

survey arXiv Feb 11, 2026 · 7w ago

The Landscape of Prompt Injection Threats in LLM Agents: From Taxonomy to Analysis

Peiran Wang, Xinfeng Li, Chong Xiang et al. · UCLA · NTU +1 more

Systematizes prompt injection attacks and defenses for LLM agents, introducing AgentPI benchmark that exposes context-dependent gaps in existing evaluations

Prompt Injection Excessive Agency nlp

PDF

Papers in Database (2)

EnchTable: Unified Safety Alignment Transfer in Fine-tuned Large Language Models

The Landscape of Prompt Injection Threats in LLM Agents: From Taxonomy to Analysis