Perry Abdulkadir

defense arXiv Dec 14, 2025 · Dec 2025

Auto-Tuning Safety Guardrails for Black-Box Large Language Models

Perry Abdulkadir · University of St. Thomas

Auto-tunes LLM system prompts and content-filter thresholds via black-box hyperparameter optimization to harden deployments against jailbreaks and malware generation

Prompt Injection nlp

PDF

Papers in Database (1)

Auto-Tuning Safety Guardrails for Black-Box Large Language Models