Michael Backes

defense arXiv Apr 17, 2026 · 4w ago

Pruning Unsafe Tickets: A Resource-Efficient Framework for Safer and More Robust LLMs

Wai Man Si, Mingjie Li, Michael Backes et al. · CISPA Helmholtz Center for Information Security

Prunes model parameters responsible for unsafe LLM outputs, reducing harmful generations and jailbreak success with minimal utility loss

Prompt Injection nlpmultimodal

PDF

benchmark arXiv Mar 12, 2026 · 10w ago

Understanding LLM Behavior When Encountering User-Supplied Harmful Content in Harmless Tasks

Junjie Chu, Yiting Qu, Ye Leng et al. · CISPA Helmholtz Center for Information Security · Delft University of Technology

Benchmarks LLM safety alignment failures when harmful content is embedded in benign tasks like translation, revealing a content-level ethical blind spot

Prompt Injection nlp

PDF

benchmark arXiv Aug 28, 2025 · Aug 2025

JADES: A Universal Framework for Jailbreak Assessment via Decompositional Scoring

Junjie Chu, Mingjie Li, Ziqing Yang et al. · CISPA Helmholtz Center for Information Security · Xi’an Jiaotong University

Benchmark framework using decompositional scoring to evaluate LLM jailbreak success, achieving 98.5% human agreement and exposing attack overestimation

Prompt Injection nlp

PDF Code

defense arXiv Jan 11, 2025 · Jan 2025

DivTrackee versus DynTracker: Promoting Diversity in Anti-Facial Recognition against Dynamic FR Strategy

Wenshu Fan, Minxing Zhang, Hongwei Li et al. · University of Electronic Science and Technology of China · CISPA Helmholtz Center for Information Security +1 more

Introduces adaptive gallery-update attack breaking all AFR defenses, then counters with diverse adversarial perturbations for facial privacy

Input Manipulation Attack vision

PDF Code

benchmark arXiv Apr 9, 2026 · 6w ago

The Art of (Mis)alignment: How Fine-Tuning Methods Effectively Misalign and Realign LLMs in Post-Training

Rui Zhang, Hongwei Li, Yun Shen et al. · University of Electronic Science and Technology of China · Flexera +2 more

Evaluates six fine-tuning methods for both misaligning safety-aligned LLMs and realigning them, revealing asymmetric attack-defense dynamics

Transfer Learning Attack Prompt Injection Training Data Poisoning nlp

PDF Code

Papers in Database (5)

Pruning Unsafe Tickets: A Resource-Efficient Framework for Safer and More Robust LLMs

Understanding LLM Behavior When Encountering User-Supplied Harmful Content in Harmless Tasks

JADES: A Universal Framework for Jailbreak Assessment via Decompositional Scoring

DivTrackee versus DynTracker: Promoting Diversity in Anti-Facial Recognition against Dynamic FR Strategy

The Art of (Mis)alignment: How Fine-Tuning Methods Effectively Misalign and Realign LLMs in Post-Training