LAVA: Layered Audio-Visual Anti-tampering Watermarking for Robust Deepfake Detection and Localization

Proactive watermarking offers a promising approach for deepfake tamper detection and localization in short-form videos. However, existing methods often decouple audio and visual evidence and assume that watermark signals remain reliable under real-world degradations, making tamper localization vulnerable to multimodal misalignment and compression distortions. Moreover, existing semi-fragile visual watermarking methods often degrade significantly under codec compression because their embedding bands overlap with compression-sensitive frequency regions. To address these limitations, we propose Layered Audio-Visual Anti-tampering Watermarking (LAVA), a calibration-aware audio-visual watermark fusion framework for deepfake tamper detection and localization. LAVA leverages cross-modal watermark fusion and calibration-aware alignment to preserve consistent and reliable tamper evidence under compression and audio-visual asynchrony, enabling robust tamper localization. Extensive experiments demonstrate that LAVA achieves near-perfect detection performance (AP = 0.999), remains robust to compression and multimodal misalignment, and significantly improves tamper localization reliability over existing audio-visual fusion baselines.

Key Contributions

Cross-modal watermark fusion framework combining audio and visual signals for tamper detection
Calibration-aware alignment mechanism to preserve watermark reliability under compression and audio-visual asynchrony
Near-perfect deepfake detection (AP=0.999) with robust tamper localization under real-world degradations

🛡️ Threat Analysis

Output Integrity Attack

Embeds watermarks in audio-visual content outputs to detect and localize deepfake tampering — this is content integrity and authenticity verification, the core of ML09.

Details

Domains

multimodalvisionaudio

Model Types

multimodalgan

Threat Tags

inference_time

Applications

Key Contributions

🛡️ Threat Analysis

Details

Similar Papers

Leave No Stone Unturned: Uncovering Holistic Audio-Visual Intrinsic Coherence for Deepfake Detection

Attribution-Guided Multimodal Deepfake Detection via Cross-Modal Forensic Fingerprints

Are DeepFakes Realistic Enough? Exploring Semantic Mismatch as a Novel Challenge

SpeechForensics: Audio-Visual Speech Representation Learning for Face Forgery Detection

Weakly Supervised Multimodal Temporal Forgery Localization via Multitask Learning

Localizing Audio-Visual Deepfakes via Hierarchical Boundary Modeling

MSCT: Differential Cross-Modal Attention for Deepfake Detection

Referee: Reference-aware Audiovisual Deepfake Detection