Moayad Aloqaily

defense arXiv Sep 26, 2025 · Sep 2025

Backdoor Attribution: Elucidating and Controlling Backdoor in Language Models

Miao Yu, Zhenhong Zhou, Moayad Aloqaily et al. · University of Science and Technology of China · Nanyang Technological University +5 more

Mechanistic interpretability framework identifies backdoor-responsible attention heads in LLMs, enabling surgical neutralization or amplification of backdoor behavior

Model Poisoning nlp

1 citations PDF

defense arXiv Oct 11, 2025 · Oct 2025

Backdoor Collapse: Eliminating Unknown Threats via Known Backdoor Aggregation in Language Models

Liang Lin, Miao Yu, Moayad Aloqaily et al. · Nanyang Technological University · University of Science and Technology of China +4 more

Defends LLMs against unknown backdoors by intentionally injecting known triggers to aggregate and then purge backdoor representations

Model Poisoning nlp

PDF

defense arXiv Feb 15, 2026 · 7w ago

MCPShield: A Security Cognition Layer for Adaptive Trust Calibration in Model Context Protocol Agents

Zhenhong Zhou, Yuanhe Zhang, Hongwei Cai et al. · NTU · BUPT +3 more

Proposes MCPShield, a lifecycle-aware security layer defending LLM agents against malicious third-party MCP tool servers

Insecure Plugin Design nlp

PDF

Papers in Database (3)

Backdoor Attribution: Elucidating and Controlling Backdoor in Language Models

Backdoor Collapse: Eliminating Unknown Threats via Known Backdoor Aggregation in Language Models

MCPShield: A Security Cognition Layer for Adaptive Trust Calibration in Model Context Protocol Agents