Skip to main content
QUICK REVIEW

[论文解读] BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain

Tianyu Gu, Brendan Dolan-Gavitt|arXiv (Cornell University)|Aug 22, 2017
Adversarial Robustness in Machine Learning参考文献 25被引用 1,002
一句话总结

该论文表明,通过外包训练或迁移学习训练的带后门的神经网络在保持较高的正常准确度的同时,在存在后门触发器时会导致攻击者选择的错误分类。它在 MNIST 和交通标志检测中给出案例研究,并讨论防御措施以及对安全的外包训练的需求。

ABSTRACT

Deep learning-based techniques have achieved state-of-the-art performance on a wide variety of recognition and classification tasks. However, these networks are typically computationally expensive to train, requiring weeks of computation on many GPUs; as a result, many users outsource the training procedure to the cloud or rely on pre-trained models that are then fine-tuned for a specific task. In this paper we show that outsourced training introduces new security risks: an adversary can create a maliciously trained network (a backdoored neural network, or a \emph{BadNet}) that has state-of-the-art performance on the user's training and validation samples, but behaves badly on specific attacker-chosen inputs. We first explore the properties of BadNets in a toy example, by creating a backdoored handwritten digit classifier. Next, we demonstrate backdoors in a more realistic scenario by creating a U.S. street sign classifier that identifies stop signs as speed limits when a special sticker is added to the stop sign; we then show in addition that the backdoor in our US street sign detector can persist even if the network is later retrained for another task and cause a drop in accuracy of {25}\% on average when the backdoor trigger is present. These results demonstrate that backdoors in neural networks are both powerful and---because the behavior of neural networks is difficult to explicate---stealthy. This work provides motivation for further research into techniques for verifying and inspecting neural networks, just as we have developed tools for verifying and debugging software.

研究动机与目标

  • 激发并形式化外包 ML 训练与迁移学习中带后门的神经网络的威胁。
  • 展示在 MNIST 数字识别与交通标志检测上的实际后门攻击。
  • 阐明攻击特性,包括对干净输入与带后门输入的影响以及迁移学习中的持久性。
  • 调研对安全获取和验证神经网络的含义。
  • 提供有关保护外包训练和预训练模型的见解与建议。

提出的方法

  • 为外包训练和迁移学习定义威胁模型。
  • 实施训练集 poisoning 以在预指定的架构中注入后门。
  • 在 MNIST 与交通标志数据集上对干净与带后门输入评估带后门的模型。
  • 可视化学习到的过滤器以理解后门表示。
  • 评估在迁移学习情境下的后门持久性。

实验结果

研究问题

  • RQ1攻击者是否可以在不降低干净数据上验证准确度的前提下将后门嵌入到神经网络?
  • RQ2带后门的模型在将攻击者自选触发器的输入错误分类方面有多高的有效性?
  • RQ3当模型被重新训练用于另一个任务(迁移学习)时,后门是否仍然存在?
  • RQ4学得的过滤器中的后门表示看起来如何,后门对现实世界的视觉系统如交通标志检测器有何影响?

主要发现

  • 带后门的 MNIST 分类器在干净性能上接近基线,同时对带后门输入的错误率极低(例如,带后门输入的误差 ≤ 0.09%)。
  • 在全对全的 MNIST 攻击中,BadNet 在带后门的图像上实现 >99% 的错误分类,同时保持干净图像误差仅略高(平均干净误差约 0.48% 对比 基线约 0.50%)。
  • 带后门的交通标志检测器(Faster-RCNN)在带后门的停止标志上将停止标志误分类为限速标志的成功率 >90%,同时保持与基线模型相当的干净图像准确率(平均干净准确度约 89–90%)。
  • 后门在迁移学习中仍然存在;例如,一个带后门的美国交通标志分类器在重新训练为瑞典标志时,存在后门触发时平均降解约 25%。
  • 研究发现通过直接验证来检测后门的可能性较低;后门触发检测在不同领域中似乎以不同方式编码(如在 MNIST 中是专用过滤器,在交通标志中是更分布式的后门表示)。
  • 作者提出了获取和使用预训练模型以减轻供应链风险的安全考虑与建议。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。