[论文解读] Neural Trojans
本文研究了由不可信供应商植入预训练神经网络知识产权(IP)中的神经后门所带来的威胁。提出三种缓解技术:输入异常检测(触发器检测率达99.8%,误报率为12.2%)、微调训练(94.1%的触发器预防率,需具备可重构性)和输入预处理(无需模型假设,90.2%的触发器中和率),所有方法在对抗后门攻击方面均被证明有效。
While neural networks demonstrate stronger capabilities in pattern recognition nowadays, they are also becoming larger and deeper. As a result, the effort needed to train a network also increases dramatically. In many cases, it is more practical to use a neural network intellectual property (IP) that an IP vendor has already trained. As we do not know about the training process, there can be security threats in the neural IP: the IP vendor (attacker) may embed hidden malicious functionality, i.e. neural Trojans, into the neural IP. We show that this is an effective attack and provide three mitigation techniques: input anomaly detection, re-training, and input preprocessing. All the techniques are proven effective. The input anomaly detection approach is able to detect 99.8% of Trojan triggers although with 12.2% false positive. The re-training approach is able to prevent 94.1% of Trojan triggers from triggering the Trojan although it requires that the neural IP be reconfigurable. In the input preprocessing approach, 90.2% of Trojan triggers are rendered ineffective and no assumption about the neural IP is needed.
研究动机与目标
- 研究来自不可信供应商的后门神经网络IP所存在的安全风险。
- 识别在预训练模型中嵌入隐藏恶意功能(神经后门)的可行性与影响。
- 开发并评估无需访问模型训练数据或架构的实用防御机制。
提出的方法
- 输入异常检测通过分析输入模式中与正常行为的偏差来识别后门触发器。
- 微调训练通过使用干净数据对神经IP进行微调,以破坏后门功能。
- 输入预处理在推理前对输入进行修改,以中和触发器,且无需对模型做任何假设。
- 三种技术在真实世界的神经网络模型上进行了评估,以衡量其检测与缓解性能。
- 每种方法均在攻击者控制模型训练过程的现实威胁模型下进行了测试。
实验结果
研究问题
- RQ1不可信供应商是否能够有效在预训练神经网络IP中植入神经后门?
- RQ2输入异常检测、微调训练和输入预处理在检测或中和后门触发器方面效果如何?
- RQ3不同缓解策略在检测准确率、误报率和模型访问需求方面存在哪些权衡?
主要发现
- 输入异常检测成功检测到99.8%的后门触发器,但误报率为12.2%。
- 微调训练可防止94.1%的后门触发器激活,但要求神经IP具备可重构性。
- 输入预处理在无需对模型做任何假设的前提下,使90.2%的后门触发器失效。
- 所有三种缓解技术均被证明能有效中和预训练神经网络中的后门攻击。
- 输入预处理方法尤其具有优势,因其无需访问模型权重或训练数据。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。