Yew-Soon Ong

defense arXiv Apr 20, 2026 · 4w ago

Hierarchically Robust Zero-shot Vision-language Models

Junhao Dong, Yifei Zhang, Hao Zhu et al. · Nanyang Technological University · A*STAR +3 more

Hierarchical adversarial fine-tuning for VLMs using hyperbolic embeddings to defend against attacks on both base and superclasses

Input Manipulation Attack visionmultimodal

PDF

defense arXiv Aug 3, 2025 · Aug 2025

RouteMark: A Fingerprint for Intellectual Property Attribution in Routing-based Model Merging

Xin He, Junxi Shen, Zhenheng Tang et al. · A*STAR · Hong Kong University of Science and Technology +2 more

Fingerprints expert modules in merged MoE models via routing behaviors to detect unauthorized IP reuse under tampering.

Model Theft visionmultimodal

PDF

attack arXiv Mar 20, 2026 · 8w ago

Evolving Jailbreaks: Automated Multi-Objective Long-Tail Attacks on Large Language Models

Wenjing Hong, Zhonghua Rong, Li Wang et al. · Shenzhen University · Ltd +2 more

Automated multi-objective evolutionary search framework discovering diverse long-tail jailbreak attacks via encryption-decryption prompt transformations

Prompt Injection nlp

PDF

Papers in Database (3)

Hierarchically Robust Zero-shot Vision-language Models

RouteMark: A Fingerprint for Intellectual Property Attribution in Routing-based Model Merging

Evolving Jailbreaks: Automated Multi-Objective Long-Tail Attacks on Large Language Models