Kai Hu

h-index: 5 58 citations 15 papers (total)

Papers in Database (2)

attack arXiv Dec 18, 2025 · Dec 2025

Jailbreak-Zero: A Path to Pareto Optimal Red Teaming for Large Language Models

Kai Hu, Abhinav Aggarwal, Mehran Khodabandeh et al. · Meta Superintelligence Labs · Carnegie Mellon University

Policy-based red teaming framework fine-tunes an attack LLM to generate diverse, human-readable jailbreak prompts achieving SOTA ASR against GPT-4o and Claude 3.5

Prompt Injection nlp

PDF

defense arXiv Jan 26, 2026 · 10w ago

LipNeXt: Scaling up Lipschitz-based Certified Robustness to Billion-parameter Models

Kai Hu, Haoqi Hu, Matt Fredrikson · Carnegie Mellon University

Scales 1-Lipschitz certified robustness to billion-parameter vision models via manifold optimization and convolution-free architecture

Input Manipulation Attack vision

PDF