Paul Swoboda

attack arXiv Feb 5, 2026 · 8w ago

Patryk Rybak, Paweł Batorski, Paul Swoboda et al. · Jagiellonian University · Heinrich Heine Universität Düsseldorf +1 more

Evolutionary adversarial prompting attack recovers supposedly forgotten training data from unlearned LLMs with up to 93% success rate

Model Inversion Attack Sensitive Information Disclosure nlp

attack arXiv Jan 30, 2026 · 9w ago

Ignacy Kolton, Kacper Marzol, Paweł Batorski et al. · Jagiellonian University · Heinrich Heine Universität Düsseldorf +1 more

RL-trained adversarial prompt policy recovers erased concepts from unlearned diffusion models at near-real-time speed

Input Manipulation Attack generative

Papers in Database (2)