ML Security Papers

Latest papers

9 papers

defense arXiv Mar 26, 2026 · 11d ago

IrisFP: Adversarial-Example-based Model Fingerprinting with Enhanced Uniqueness and Robustness

Ziye Geng, Guang Yang, Yihang Chen et al. · University of Houston · Virginia Commonwealth University

Adversarial fingerprinting method for model ownership verification using multi-boundary composite samples with enhanced uniqueness and robustness

Model Theft vision

PDF

defense arXiv Mar 26, 2026 · 11d ago

LiteGuard: Efficient Task-Agnostic Model Fingerprinting with Enhanced Generalization

Guang Yang, Ziye Geng, Yihang Chen et al. · Virginia Commonwealth University · University of Houston

Efficient model fingerprinting defense using checkpoint augmentation and local verifiers to detect stolen models across tasks

Model Theft visionnlpgraph

PDF

defense arXiv Mar 22, 2026 · 15d ago

Fingerprinting Deep Neural Networks for Ownership Protection: An Analytical Approach

Guang Yang, Ziye Geng, Yihang Chen et al. · Virginia Commonwealth University · University of Houston

Analytical fingerprinting defense that proves DNN ownership by controlling adversarial perturbation distance from decision boundaries

Model Theft vision

PDF

attack arXiv Mar 11, 2026 · 26d ago

WebWeaver: Breaking Topology Confidentiality in LLM Multi-Agent Systems with Stealthy Context-Based Inference

Zixun Xiong, Gaoyi Wu, Lingfeng Yao et al. · Stevens Institute of Technology · University of Houston

Attacks LLM multi-agent topology confidentiality by inferring full network structure from a single compromised agent's context using jailbreak and diffusion-based inference

Excessive Agency Prompt Injection nlp

PDF

benchmark RANLP Dec 4, 2025 · Dec 2025

The Erosion of LLM Signatures: Can We Still Distinguish Human and LLM-Generated Scientific Ideas After Iterative Paraphrasing?

Sadat Shahriar, Navid Ayoobi, Arjun Mukherjee · University of Houston

Benchmarks LLM-generated scientific idea detectors against iterative paraphrasing, revealing 25.4% average detection drop over five evasion stages

Output Integrity Attack nlp

PDF

defense arXiv Nov 12, 2025 · Nov 2025

iSeal: Encrypted Fingerprinting for Reliable LLM Ownership Verification

Zixun Xiong, Gaoyi Wu, Qingyang Yu et al. · Stevens Institute of Technology · Genentech +1 more

Defends LLM IP with encrypted fingerprinting that resists collusion-based unlearning and response manipulation attacks at verification time

Model Theft Model Theft nlp

PDF Code

defense arXiv Nov 9, 2025 · Nov 2025

EchoMark: Perceptual Acoustic Environment Transfer with Watermark-Embedded Room Impulse Response

Chenpei Huang, Lingfeng Yao, Kyu In Lee et al. · University of Houston · Clemson University

Embeds watermarks in AI-generated room impulse responses to trace audio provenance and deter voice spoofing attacks

Output Integrity Attack audiogenerative

PDF

attack arXiv Sep 6, 2025 · Sep 2025

Yours or Mine? Overwriting Attacks Against Neural Audio Watermarking

Lingfeng Yao, Chenpei Huang, Shengyao Wang et al. · University of Houston · Waseda University +3 more

Overwriting attacks replace legitimate audio watermarks with forged ones, achieving ~100% success across white-, gray-, and black-box threat models

Output Integrity Attack audiogenerative

PDF

defense arXiv Aug 6, 2025 · Aug 2025

Guided Perturbation Sensitivity (GPS): Detecting Adversarial Text via Embedding Stability and Word Importance

Bryan E. Tuck, Rakesh M. Verma · University of Houston

Detects adversarial word-substitution attacks on text classifiers by measuring embedding sensitivity when masking gradient-ranked important words

Input Manipulation Attack nlp

PDF Code

Latest papers

IrisFP: Adversarial-Example-based Model Fingerprinting with Enhanced Uniqueness and Robustness

LiteGuard: Efficient Task-Agnostic Model Fingerprinting with Enhanced Generalization

Fingerprinting Deep Neural Networks for Ownership Protection: An Analytical Approach

WebWeaver: Breaking Topology Confidentiality in LLM Multi-Agent Systems with Stealthy Context-Based Inference

The Erosion of LLM Signatures: Can We Still Distinguish Human and LLM-Generated Scientific Ideas After Iterative Paraphrasing?

iSeal: Encrypted Fingerprinting for Reliable LLM Ownership Verification

EchoMark: Perceptual Acoustic Environment Transfer with Watermark-Embedded Room Impulse Response

Yours or Mine? Overwriting Attacks Against Neural Audio Watermarking

Guided Perturbation Sensitivity (GPS): Detecting Adversarial Text via Embedding Stability and Word Importance

Filters

Time Period

Paper Type

OWASP ML Top 10

OWASP LLM Top 10

Institution

Venue