ML Security Papers

ML Security Papers

Latest papers

1 papers

tool arXiv Feb 1, 2026 · 9w ago

MindGuard: Guardrail Classifiers for Multi-Turn Mental Health Support

José Pombal, Maya D'Eon, Nuno M. Guerreiro et al. · Sword Health · Instituto de Telecomunicações +1 more

Lightweight guardrail classifiers for LLM mental health chatbots reduce adversarial attack success rates versus general-purpose safeguards

Prompt Injection nlp