ML Security Papers

Latest papers

51 papers

defense arXiv Apr 29, 2026 · 22d ago

SafeTune: Mitigating Data Poisoning in LLM Fine-Tuning for RTL Code Generation

Mahshid Rezakhani, Nowfel Mashnoor, Kimia Azar et al. · University of Central Florida

Dual-layer filtering framework detecting poisoned training data in LLM RTL generation via GNN structural analysis and semantic prompt verification

Data Poisoning Attack Model Poisoning Training Data Poisoning nlpgenerative

PDF

defense arXiv Apr 27, 2026 · 24d ago

Defusing the Trigger: Plug-and-Play Defense for Backdoored LLMs via Tail-Risk Intrinsic Geometric Smoothing

Kaisheng Fan, Weizhe Zhang, Yishu Gao et al. · Harbin Institute of Technology · Peng Cheng Laboratory +1 more

Plug-and-play inference-time backdoor defense detecting trigger-induced attention collapse in LLMs without parameter updates or latency overhead

Model Poisoning Training Data Poisoning nlp

PDF

defense arXiv Apr 24, 2026 · 27d ago

Train in Vain: Functionality-Preserving Poisoning to Prevent Unauthorized Use of Code Datasets

Yuan Xiao, Jiaming Wang, Yuchen Chen et al. · Nanjing University · University of New South Wales +3 more

Dataset poisoning defense that injects compilable, functionality-preserving code fragments to degrade CodeLLM training with only 10% contamination

Data Poisoning Attack Training Data Poisoning nlp

PDF

attack arXiv Apr 23, 2026 · 28d ago

PermaFrost-Attack: Stealth Pretraining Seeding(SPS) for planting Logic Landmines During LLM Training

Harsh Kumar, Rahul Maity, Tanmay Joshi et al. · Manipal University Jaipur · National Institute of Technology Karnataka +3 more

Web-scale poisoning attack planting dormant backdoor triggers in LLM pretraining corpora via stealth websites indexed by Common Crawl

Data Poisoning Attack Model Poisoning AI Supply Chain Attacks Training Data Poisoning nlp

PDF Code

attack arXiv Apr 23, 2026 · 28d ago

Stealthy Backdoor Attacks against LLMs Based on Natural Style Triggers

Jiali Wei, Ming Fan, Guoheng Sun et al. · Xi’an Jiaotong University

Style-based backdoor attack on LLMs using imperceptible triggers with auxiliary loss for stable payload injection across fine-tuning

Model Poisoning Training Data Poisoning nlp

PDF

benchmark arXiv Apr 9, 2026 · 6w ago

The Art of (Mis)alignment: How Fine-Tuning Methods Effectively Misalign and Realign LLMs in Post-Training

Rui Zhang, Hongwei Li, Yun Shen et al. · University of Electronic Science and Technology of China · Flexera +2 more

Evaluates six fine-tuning methods for both misaligning safety-aligned LLMs and realigning them, revealing asymmetric attack-defense dynamics

Transfer Learning Attack Prompt Injection Training Data Poisoning nlp

PDF Code

attack arXiv Apr 8, 2026 · 6w ago

RefineRAG: Word-Level Poisoning Attacks via Retriever-Guided Text Refinement

Ziye Wang, Guanyu Wang, Kailong Wang · Huazhong University of Science and Technology · Beihang University

Word-level poisoning attack on RAG systems that injects stealthy toxic documents to manipulate LLM outputs via retriever optimization

Data Poisoning Attack Prompt Injection Training Data Poisoning nlp

PDF

attack arXiv Apr 8, 2026 · 6w ago

MirageBackdoor: A Stealthy Attack that Induces Think-Well-Answer-Wrong Reasoning

Yizhe Zeng, Wei Zhang, Yunpeng Li et al. · Chinese Academy of Sciences · University of Chinese Academy of Sciences +1 more

Backdoor attack on CoT-reasoning LLMs that produces correct reasoning but wrong final answers, evading process-monitoring defenses

Model Poisoning Training Data Poisoning nlp

PDF

defense arXiv Apr 1, 2026 · 7w ago

RAGShield: Provenance-Verified Defense-in-Depth Against Knowledge Base Poisoning in Government Retrieval-Augmented Generation Systems

KrishnaSaiReddy Patil

Defense-in-depth framework using cryptographic provenance verification to block knowledge base poisoning attacks in government RAG systems

Data Poisoning Attack Training Data Poisoning nlp

PDF

attack arXiv Mar 30, 2026 · 7w ago

Trojan-Speak: Bypassing Constitutional Classifiers with No Jailbreak Tax via Adversarial Finetuning

Bilgehan Sel, Xuanli He, Alwin Peng et al. · Anthropic · Virginia Tech +1 more

Adversarial fine-tuning attack that bypasses Constitutional Classifiers via curriculum learning, achieving 99% evasion with minimal capability loss

Prompt Injection Training Data Poisoning nlp

PDF

survey arXiv Mar 23, 2026 · 8w ago

Towards Secure Retrieval-Augmented Generation: A Comprehensive Review of Threats, Defenses and Benchmarks

Yanming Mu, Hao Hu, Feiyang Li et al. · State Key Laboratory of Mathematical Engineering and Advanced Computing · Information Engineering University +2 more

First end-to-end survey mapping RAG security threats, defenses, and benchmarks across the entire pipeline

Prompt Injection Training Data Poisoning Sensitive Information Disclosure nlp

PDF

defense arXiv Mar 17, 2026 · 9w ago

Detecting Data Poisoning in Code Generation LLMs via Black-Box, Vulnerability-Oriented Scanning

Shenao Yan, Shimaa Ahmed, Shan Jin et al. · University of Connecticut · Visa Research

Black-box scanning framework detecting poisoned code generation LLMs by identifying recurring vulnerable code structures across diverse prompts

Data Poisoning Attack Model Poisoning Training Data Poisoning nlp

PDF

attack arXiv Mar 16, 2026 · 9w ago

Amplification Effects in Test-Time Reinforcement Learning: Safety and Reasoning Vulnerabilities

Vanshaj Khattar, Md Rafi ur Rashid, Moumita Choudhury et al. · Virginia Tech · Penn State University +2 more

Jailbreak injection during test-time RL amplifies LLM harmful outputs and degrades reasoning performance simultaneously

Prompt Injection Training Data Poisoning nlp

PDF

defense arXiv Mar 3, 2026 · 11w ago

Understanding and Mitigating Dataset Corruption in LLM Steering

Cullen Anderson, Narmeen Oozeer, Foad Namjoo et al. · University of Massachusetts Amherst · Martian AI +2 more

Analyzes adversarial data poisoning of LLM contrastive steering datasets and defends with robust mean estimation

Data Poisoning Attack Training Data Poisoning nlp

PDF

attack arXiv Mar 1, 2026 · 11w ago

Subliminal Signals in Preference Labels

Isotta Magistrali, Frédéric Berdoz, Sam Dauncey et al. · ETH Zürich

Biased LLM judge covertly encodes behavioral traits into student models via binary RLHF preference labels, bypassing semantic oversight

Transfer Learning Attack Data Poisoning Attack Training Data Poisoning nlp

PDF Code

defense arXiv Feb 28, 2026 · 11w ago

Antibody: Strengthening Defense Against Harmful Fine-Tuning for Large Language Models via Attenuating Harmful Gradient Influence

Quoc Minh Nguyen, Trung Le, Jing Wu et al. · Monash University

Defends LLMs against harmful fine-tuning attacks by pre-aligning safety in flat loss regions and gradient-weighting poisoned samples away during fine-tuning

Data Poisoning Attack Training Data Poisoning nlp

PDF

attack arXiv Feb 28, 2026 · 11w ago

Silent Sabotage During Fine-Tuning: Few-Shot Rationale Poisoning of Compact Medical LLMs

Jingyuan Xie, Wenjie Wang, Ji Wu et al. · Tsinghua University · Beijing National Research Center for Information Science and Technology

Stealthy few-shot rationale poisoning attack during LLM fine-tuning degrades medical subject accuracy without detectable backdoor triggers

Data Poisoning Attack Training Data Poisoning nlp

PDF

attack arXiv Feb 17, 2026 · Feb 2026

Revisiting Backdoor Threat in Federated Instruction Tuning from a Signal Aggregation Perspective

Haodong Zhao, Jinming Hu, Gongshen Liu · Shanghai Jiao Tong University

Reveals distributed backdoor attacks via low-concentration poisoned data across benign FL clients defeat all existing defenses

Model Poisoning Data Poisoning Attack Training Data Poisoning nlpfederated-learning

PDF

defense arXiv Feb 10, 2026 · Feb 2026

Towards Poisoning Robustness Certification for Natural Language Generation

Mihnea Ghitu, Matthew Wicker · Imperial College London

Proposes TPA, the first certified defense against targeted data poisoning attacks for autoregressive LLMs using MILP-backed guarantees

Data Poisoning Attack Training Data Poisoning nlp

PDF

attack arXiv Feb 10, 2026 · Feb 2026

Infusion: Shaping Model Behavior by Editing Training Data via Influence Functions

J Rosser, Robert Kirk, Edward Grefenstette et al. · University of Oxford · Independent +2 more

Poisons ML models by perturbing existing training data via influence functions, inducing targeted behavior without injecting explicit attack examples

Data Poisoning Attack Training Data Poisoning visionnlp

PDF Code

Loading more papers…

Latest papers

SafeTune: Mitigating Data Poisoning in LLM Fine-Tuning for RTL Code Generation

Defusing the Trigger: Plug-and-Play Defense for Backdoored LLMs via Tail-Risk Intrinsic Geometric Smoothing

Train in Vain: Functionality-Preserving Poisoning to Prevent Unauthorized Use of Code Datasets

PermaFrost-Attack: Stealth Pretraining Seeding(SPS) for planting Logic Landmines During LLM Training

Stealthy Backdoor Attacks against LLMs Based on Natural Style Triggers

The Art of (Mis)alignment: How Fine-Tuning Methods Effectively Misalign and Realign LLMs in Post-Training

RefineRAG: Word-Level Poisoning Attacks via Retriever-Guided Text Refinement

MirageBackdoor: A Stealthy Attack that Induces Think-Well-Answer-Wrong Reasoning

RAGShield: Provenance-Verified Defense-in-Depth Against Knowledge Base Poisoning in Government Retrieval-Augmented Generation Systems

Trojan-Speak: Bypassing Constitutional Classifiers with No Jailbreak Tax via Adversarial Finetuning

Towards Secure Retrieval-Augmented Generation: A Comprehensive Review of Threats, Defenses and Benchmarks

Detecting Data Poisoning in Code Generation LLMs via Black-Box, Vulnerability-Oriented Scanning

Amplification Effects in Test-Time Reinforcement Learning: Safety and Reasoning Vulnerabilities

Understanding and Mitigating Dataset Corruption in LLM Steering

Subliminal Signals in Preference Labels

Antibody: Strengthening Defense Against Harmful Fine-Tuning for Large Language Models via Attenuating Harmful Gradient Influence

Silent Sabotage During Fine-Tuning: Few-Shot Rationale Poisoning of Compact Medical LLMs

Revisiting Backdoor Threat in Federated Instruction Tuning from a Signal Aggregation Perspective

Towards Poisoning Robustness Certification for Natural Language Generation

Infusion: Shaping Model Behavior by Editing Training Data via Influence Functions

Filters

Time Period

Paper Type

OWASP ML Top 10

OWASP LLM Top 10

Institution

Venue