ML Security Papers

defense arXiv Feb 21, 2026 · 6w ago

Limits of Convergence-Rate Control for Open-Weight Safety

Domenic Rosati, Xijie Zeng, Hong Huang et al. · Dalhousie University · Vector Institute +1 more

Defends open-weight models against harmful fine-tuning via spectral reparameterization, proving adaptive adversaries can bypass any such defense at linear model-size cost

Transfer Learning Attack visionnlp

PDF

Latest papers

Limits of Convergence-Rate Control for Open-Weight Safety

Filters

Time Period

Paper Type

OWASP ML Top 10

OWASP LLM Top 10

Institution

Venue