Jack Youstra

defense arXiv Aug 23, 2025 · Aug 2025

Towards Safeguarding LLM Fine-tuning APIs against Cipher Attacks

Jack Youstra, Mohammed Mahfoud, Yang Yan et al. · Independent · Anthropic +1 more

Defends LLM fine-tuning APIs against cipher-based backdoor poisoning using activation probe monitors achieving 99%+ detection accuracy on unseen ciphers

Model Poisoning Data Poisoning Attack Training Data Poisoning nlp

PDF Code

Papers in Database (1)

Towards Safeguarding LLM Fine-tuning APIs against Cipher Attacks