ML Security Papers

Latest papers

7 papers

attack arXiv Mar 30, 2026 · 9d ago

With a Little Help From My Friends: Collective Manipulation in Risk-Controlling Recommender Systems

Giovanni De Toni, Cristian Consonni, Erasmo Purificato et al. · Fondazione Bruno Kessler · European Commission

Coordinated user groups exploit 'Not Interested' feedback in risk-controlling recommenders, degrading recommendation quality by 20% with only 1% adversarial users

Model Skewing nlp

PDF

attack arXiv Mar 19, 2026 · 20d ago

Attack by Unlearning: Unlearning-Induced Adversarial Attacks on Graph Neural Networks

Jiahao Zhang, Yilong Wang, Suhang Wang · The Pennsylvania State University

Adversarial attack exploiting graph unlearning by injecting nodes designed to corrupt GNN performance when deletion is requested

Model Skewing Data Poisoning Attack graph

PDF

defense arXiv Feb 28, 2026 · 5w ago

ROKA: Robust Knowledge Unlearning against Adversaries

Jinmyeong Shin, Joshua Tapia, Nicholas Ferreira et al. · University of California · California State University

Proposes ROKA defense against adversarial unlearning attacks that weaponize knowledge contamination to compromise security-critical model predictions without data manipulation

Model Skewing Model Poisoning visionnlpmultimodal

PDF

defense arXiv Feb 6, 2026 · 8w ago

Incentive-Aware AI Safety via Strategic Resource Allocation: A Stackelberg Security Games Perspective

Cheol Woo Kim, Davin Choo, Tzeh Yuan Neoh et al. · Harvard University

Proposes Stackelberg Security Games as a unifying framework for strategic AI oversight against data poisoning, evaluation manipulation, and deployment attacks

Data Poisoning Attack Model Skewing Training Data Poisoning nlpreinforcement-learning

PDF

benchmark arXiv Feb 4, 2026 · 9w ago

The Missing Half: Unveiling Training-time Implicit Safety Risks Beyond Deployment

Zhexin Zhang, Yida Lu, Junfeng Fang et al. · Tsinghua University · National University of Singapore +1 more

First systematic taxonomy of training-time implicit safety risks in RL-trained LLMs, showing risky behaviors in 74.4% of runs

Model Skewing Excessive Agency nlpreinforcement-learning

PDF

survey arXiv Oct 23, 2025 · Oct 2025

Enhancing Security in Deep Reinforcement Learning: A Comprehensive Survey on Adversarial Attacks and Defenses

Wu Yichao, Wang Yirui, Ding Panpan et al. · Henan University · Henan Industrial Technology Academy of Spatio-Temporal Big Data

Surveys adversarial attacks and defenses in deep RL, classifying threats by perturbation type across state, action, reward, and model spaces

Input Manipulation Attack Model Skewing Model Poisoning reinforcement-learning

2 citations PDF

attack arXiv Sep 26, 2025 · Sep 2025

Observation-Free Attacks on Online Learning to Rank

Sameep Chattopadhyay, Nikhil Karamchandani, Sharayu Moharir · University of Washington · Indian Institute of Technology Bombay

Attacks online learning-to-rank algorithms via observation-free click-feedback manipulation to promote target items and induce linear regret with only O(log T) manipulations

Model Skewing reinforcement-learning

PDF

Latest papers

With a Little Help From My Friends: Collective Manipulation in Risk-Controlling Recommender Systems

Attack by Unlearning: Unlearning-Induced Adversarial Attacks on Graph Neural Networks

ROKA: Robust Knowledge Unlearning against Adversaries

Incentive-Aware AI Safety via Strategic Resource Allocation: A Stackelberg Security Games Perspective

The Missing Half: Unveiling Training-time Implicit Safety Risks Beyond Deployment

Enhancing Security in Deep Reinforcement Learning: A Comprehensive Survey on Adversarial Attacks and Defenses

Observation-Free Attacks on Online Learning to Rank

Filters

Time Period

Paper Type

OWASP ML Top 10

OWASP LLM Top 10

Institution

Venue