Sebastian Dionicio

defense arXiv Feb 21, 2026 · 6w ago

Limits of Convergence-Rate Control for Open-Weight Safety

Domenic Rosati, Xijie Zeng, Hong Huang et al. · Dalhousie University · Vector Institute +1 more

Defends open-weight models against harmful fine-tuning via spectral reparameterization, proving adaptive adversaries can bypass any such defense at linear model-size cost

Transfer Learning Attack visionnlp

PDF

Papers in Database (1)

Limits of Convergence-Rate Control for Open-Weight Safety