Fabio Brau

attack arXiv Nov 11, 2025 · Nov 2025

SOM Directions are Better than One: Multi-Directional Refusal Suppression in Language Models

Giorgio Piras, Raffaele Mura, Fabio Brau et al. · University of Cagliari · University of Genova

Ablates multiple SOM-derived refusal directions from LLM internals to outperform standard jailbreak algorithms at suppressing safety refusal

Prompt Injection nlp

3 citations PDF Code

defense arXiv Feb 12, 2026 · 7w ago

BlackCATT: Black-box Collusion Aware Traitor Tracing in Federated Learning

Elena Rodríguez-Lois, Fabio Brau, Maura Pintor et al. · University of Vigo · University of Cagliari

Proposes collusion-resistant black-box model watermarking for federated learning to trace which participant leaked their model copy

Model Theft federated-learningvision

PDF

defense arXiv Oct 21, 2025 · Oct 2025

S2AP: Score-space Sharpness Minimization for Adversarial Pruning

Giorgio Piras, Qi Zhao, Fabio Brau et al. · University of Cagliari · Karlsruhe Institute of Technology

Plug-in sharpness minimization for adversarial pruning that stabilizes mask selection and improves pruned model robustness against adversarial attacks

Input Manipulation Attack vision

PDF

Papers in Database (3)

SOM Directions are Better than One: Multi-Directional Refusal Suppression in Language Models

BlackCATT: Black-box Collusion Aware Traitor Tracing in Federated Learning

S2AP: Score-space Sharpness Minimization for Adversarial Pruning