ML Security Papers

ML07

Transfer Learning Attack

Exploiting fine-tuning and transfer learning vulnerabilities

94 papers Browse all papers

Monthly publications

Paper types

defense 45

attack 34

benchmark 14

tool 1

Domains

nlp 81

vision 16

multimodal 10

generative 7

reinforcement-learning 3

federated-learning 3

audio 2

graph 2

Co-occurring categories

Other OWASP categories that appear on the same papers

LLM01 Prompt Injection

ML10 Model Poisoning

ML02 Data Poisoning Attack

LLM03 Training Data Poisoning

LLM08 Excessive Agency

ML05 Model Theft

ML04 Membership Inference Attack

ML09 Output Integrity Attack

LLM06 Sensitive Information Disclosure

Top cited papers

SaLoRA: Safety-Alignment Preserved Low-Rank Adaptation

Adaptive Defense against Harmful Fine-Tuning for Large Language Models via Bayesian Data Scheduler

Attack via Overfitting: 10-shot Benign Fine-tuning to Jailbreak LLMs

Eliciting Harmful Capabilities by Fine-Tuning On Safeguarded Outputs

A Guardrail for Safety Preservation: When Safety-Sensitive Subspace Meets Harmful-Resistant Null-Space

Open-weight genome language model safeguards: Assessing robustness via adversarial fine-tuning

LSSF: Safety Alignment for Large Language Models through Low-Rank Safety Subspace Fusion

From Narrow Unlearning to Emergent Misalignment: Causes, Consequences, and Containment in LLMs

Defending MoE LLMs against Harmful Fine-Tuning via Safety Routing Alignment

Detecting Adversarial Fine-tuning with Auditing Agents

Browse all 94 papers