Franziska Boenisch

defense arXiv Aug 30, 2025 · Aug 2025

Localizing and Mitigating Memorization in Image Autoregressive Models

Aditya Kasliwal, Franziska Boenisch, Adam Dziedzic · CISPA Helmholtz Center for Information Security

Localizes memorization hotspots in image autoregressive models and intervenes to reduce training data extraction with minimal quality loss

Model Inversion Attack visiongenerative

PDF

defense arXiv Aug 6, 2025 · Aug 2025

Adversarial Attacks and Defenses on Graph-aware Large Language Models (LLMs)

Iyiola E. Olatunji, Franziska Boenisch, Jing Xu et al. · University of Luxembourg · CISPA Helmholtz Center for Information Security

Attacks graph-aware LLMs via poisoning, evasion, and template injection; proposes GALGUARD combining feature correction and GNN defenses

Input Manipulation Attack Data Poisoning Attack Prompt Injection graphnlp

PDF

attack arXiv Feb 28, 2026 · 5w ago

Curation Leaks: Membership Inference Attacks against Data Curation for Machine Learning

Dariush Wahdany, Matthew Jagielski, Adam Dziedzic et al. · CISPA Helmholtz Center for Information Security · Anthropic

Membership inference attacks expose private data leakage in curation pipelines even when models train only on public data

Membership Inference Attack vision

PDF

defense arXiv Mar 3, 2026 · 4w ago

Conditioned Activation Transport for T2I Safety Steering

Maciej Chrabąszcz, Aleksander Szymczyk, Jan Dubiński et al. · NASK National Research Institute · Warsaw University of Technology +3 more

Proposes conditioned activation transport to steer T2I model activations away from unsafe regions while preserving image quality

Prompt Injection visionmultimodalgenerative

PDF Code

benchmark arXiv Aug 16, 2025 · Aug 2025

Demystifying Foreground-Background Memorization in Diffusion Models

Jimmy Z. Di, Yiwei Lu, Yaoliang Yu et al. · University of Waterloo · Vector Institute +2 more

Proposes FB-Mem segmentation metric to quantify partial training data memorization in diffusion models, showing current mitigations fail for foreground regions