Mohan Kankanhalli

attack arXiv Aug 18, 2025 · Aug 2025

Yangyang Guo, Yangyan Li, Mohan Kankanhalli · National University of Singapore · Alibaba Group

Single universal self-prompting attack bypasses entire guardrail structures of GPT-4.1, Claude, Gemini, and Grok

Prompt Injection nlp

defense arXiv Sep 9, 2025 · Sep 2025

Himanshu Singh, A. V. Subramanyam, Shivank Rajput et al. · IIIT Delhi · National University of Singapore

Adversarial training defense that projects out inter-class feature dependencies to enforce separability and reduce Lipschitz constant

Input Manipulation Attack vision

defense arXiv Mar 6, 2026 · 4w ago

Tianyi Wang, Xi Shao, Harry Cheng et al. · National University of Singapore · Nanjing University of Posts and Telecommunications +1 more

Detects audio-visual deepfake segments via word-token binary classification, outperforming regression-based TFL baselines

Output Integrity Attack audiovisionmultimodal

Papers in Database (3)