ML Security Papers

Latest papers

4 papers

defense arXiv Apr 1, 2026 · 5d ago

WARP: Guaranteed Inner-Layer Repair of NLP Transformers

Hsin-Ling Hsu, Min-Yu Chen, Nai-Chia Chen et al. · National Chengchi University

Constraint-based model repair framework providing provable guarantees for correcting adversarial misclassifications in NLP Transformers

Input Manipulation Attack nlp

PDF

defense arXiv Mar 26, 2026 · 11d ago

SAVe: Self-Supervised Audio-visual Deepfake Detection Exploiting Visual Artifacts and Audio-visual Misalignment

Sahibzada Adil Shahzad, Ammarah Hashmi, Junichi Yamagishi et al. · National Institute of Informatics · Academia Sinica +2 more

Self-supervised multimodal deepfake detector trained on real videos, detecting visual tampering artifacts and audio-visual lip-sync inconsistencies

Output Integrity Attack multimodalvisionaudio

PDF

attack arXiv Sep 28, 2025 · Sep 2025

Influence-Guided Concolic Testing of Transformer Robustness

Chih-Duo Hong, Yu Wang, Yao-Chen Chang et al. · National Chengchi University · Academia Sinica

SHAP-guided concolic testing with SMT-encoded attention semantics finds adversarial label-flip inputs for Transformer classifiers more efficiently than FIFO baseline

Input Manipulation Attack vision

PDF

defense arXiv Aug 4, 2025 · Aug 2025

DINA: A Dual Defense Framework Against Internal Noise and External Attacks in Natural Language Processing

Ko-Wei Chuang, Hen-Hsen Huang, Tsai-Yen Li · National Chengchi University · Academia Sinica

Defends NLP content moderators against adversarial evasion and label poisoning simultaneously via combined adversarial training and noisy-label learning

Input Manipulation Attack Data Poisoning Attack nlp

PDF

Latest papers

WARP: Guaranteed Inner-Layer Repair of NLP Transformers

SAVe: Self-Supervised Audio-visual Deepfake Detection Exploiting Visual Artifacts and Audio-visual Misalignment

Influence-Guided Concolic Testing of Transformer Robustness

DINA: A Dual Defense Framework Against Internal Noise and External Attacks in Natural Language Processing

Filters

Time Period

Paper Type

OWASP ML Top 10

OWASP LLM Top 10

Institution

Venue