Lior Wolf

defense arXiv Nov 15, 2025 · Nov 2025

Gil Goren, Shahar Katz, Lior Wolf · Tel Aviv University

Defends LLMs against jailbreaks by monitoring internal activations with a random forest combining refusal direction and SVM signals

Prompt Injection nlp

1 citations PDF Code

Papers in Database (1)