Skip to main content
QUICK REVIEW

[论文解读] T-BFA: Targeted Bit-Flip Adversarial Weight Attack

Adnan Siraj Rakin, Zhezhi He|arXiv (Cornell University)|Jul 24, 2020
Adversarial Robustness in Machine Learning参考文献 37被引用 30
一句话总结

本论文提出 Targeted Bit-Flip Adversarial Weight Attack (T-BFA),通过翻转少量量化 DNN 权重位,使选定输入错误分类为目标类别,在 CIFAR-10 和 ImageNet 上展示并具备实际硬件可行性。

ABSTRACT

Traditional Deep Neural Network (DNN) security is mostly related to the well-known adversarial input example attack. Recently, another dimension of adversarial attack, namely, attack on DNN weight parameters, has been shown to be very powerful. As a representative one, the Bit-Flip-based adversarial weight Attack (BFA) injects an extremely small amount of faults into weight parameters to hijack the executing DNN function. Prior works of BFA focus on un-targeted attack that can hack all inputs into a random output class by flipping a very small number of weight bits stored in computer memory. This paper proposes the first work of targeted BFA based (T-BFA) adversarial weight attack on DNNs, which can intentionally mislead selected inputs to a target output class. The objective is achieved by identifying the weight bits that are highly associated with classification of a targeted output through a class-dependent weight bit ranking algorithm. Our proposed T-BFA performance is successfully demonstrated on multiple DNN architectures for image classification tasks. For example, by merely flipping 27 out of 88 million weight bits of ResNet-18, our T-BFA can misclassify all the images from 'Hen' class into 'Goose' class (i.e., 100 % attack success rate) in ImageNet dataset, while maintaining 59.35 % validation accuracy. Moreover, we successfully demonstrate our T-BFA attack in a real computer prototype system running DNN computation, with Ivy Bridge-based Intel i7 CPU and 8GB DDR3 memory.

研究动机与目标

  • 通过在内存中翻转比特,激发并实现对权重量化的 DNN 的定向攻击。
  • 通过类别相关排序,识别与目标类别高度相关的权重量位。
  • 开发三种攻击变体(N-to-1、1-to-1、1-to-1 Stealthy)及其相应的损失函数。
  • 在多种体系结构和数据集上展示有效性,包括一个真实的硬件原型。

提出的方法

  • 为 N-to-1、1-to-1、和 1-to-1 Stealthy 攻击制定三种定向损失函数。
  • 通过层内梯度引导搜索和层间选择,迭代搜索易受攻击的权重量位。
  • 使用掩码-梯度方向的方法在每次迭代中翻转一个比特,以最小化定向损失。
  • 使用逐层 N 位均匀量化器对权重进行量化,并以二进制补码编码,以符合硬件相关性。
  • 在 CIFAR-10 和 ImageNet 上对多种体系结构评估攻击成功率(ASR)和攻击后准确率(TA)。
  • 展示一个使用 DRAM 行锤击实现 Bit-Flip 过程的真实计算机原型。

实验结果

研究问题

  • RQ1在量化的 DNN 中,少量权重量位翻转是否能够可靠地导致选定输入的定向错误分类?
  • RQ2不同攻击类型(N-to-1、1-to-1、1-to-1 Stealthy)在有效性和隐蔽性方面在不同体系结构和数据集上有何比较?
  • RQ3网络容量与对定向权重攻击易感性之间的关系是什么?
  • RQ4一个实用的、无特权的攻击者是否能够在具备 DRAM 故障注入的真实硬件上执行 T-BFA?

主要发现

  • T-BFA 可以通过少量比特翻转(如 ImageNet 上的 ResNet-18 的 Hen→Goose 达到 27 次翻转)实现对目标错误分类的 100% 攻击成功率,同时保持对其他类别的显著准确率。
  • 1-to-1 攻击通常比 N-to-1 攻击需要更少的比特翻转即可在 CIFAR-10 上达到 100% ASR。
  • 1-to-1 Stealthy 攻击显示出较高的 ASR(高达约 99%),并且目标类和非目标类准确率会因架构(ResNet-20 与 VGG-11)而显著下降。
  • 在 ImageNet 上,较大的网络(ResNet-18/34)在 1-to-1 (S) 下实现 100% ASR,同时保持合理的 TA,而 MobileNet-V2 可能难以维持 TA。
  • 使用 DRAM 行锤攻击的真实硬件演示证实了在无特权环境中实现 T-BFA 的可行性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。