QUICK REVIEW

[論文レビュー] T-BFA: Targeted Bit-Flip Adversarial Weight Attack

Adnan Siraj Rakin, Zhezhi He|arXiv (Cornell University)|Jul 24, 2020

Adversarial Robustness in Machine Learning参考文献 37被引用数 30

ひとこと要約

この論文は Targeted Bit-Flip Adversarial Weight Attack (T-BFA) を導入し、選択された入力を選択したターゲットクラスに誤分類させるために、量子化された DNN のウェイトビットを少数だけ反転させる手法を提案する。CIFAR-10 と ImageNet で実機実現性を示した。

ABSTRACT

Traditional Deep Neural Network (DNN) security is mostly related to the well-known adversarial input example attack. Recently, another dimension of adversarial attack, namely, attack on DNN weight parameters, has been shown to be very powerful. As a representative one, the Bit-Flip-based adversarial weight Attack (BFA) injects an extremely small amount of faults into weight parameters to hijack the executing DNN function. Prior works of BFA focus on un-targeted attack that can hack all inputs into a random output class by flipping a very small number of weight bits stored in computer memory. This paper proposes the first work of targeted BFA based (T-BFA) adversarial weight attack on DNNs, which can intentionally mislead selected inputs to a target output class. The objective is achieved by identifying the weight bits that are highly associated with classification of a targeted output through a class-dependent weight bit ranking algorithm. Our proposed T-BFA performance is successfully demonstrated on multiple DNN architectures for image classification tasks. For example, by merely flipping 27 out of 88 million weight bits of ResNet-18, our T-BFA can misclassify all the images from 'Hen' class into 'Goose' class (i.e., 100 % attack success rate) in ImageNet dataset, while maintaining 59.35 % validation accuracy. Moreover, we successfully demonstrate our T-BFA attack in a real computer prototype system running DNN computation, with Ivy Bridge-based Intel i7 CPU and 8GB DDR3 memory.

研究の動機と目的

重みを量子化した DNN に対して、メモリ内のビット反転を通じた標的型攻撃を動機付け、実現可能にする。
クラス依存のランキングを通じて、ターゲットクラスと強く関連する重みビットを特定する。
対応する損失関数を伴う3つの攻撃バリアント（N-to-1、1-to-1、1-to-1 Stealthy）を開発する。
実機プロトタイプを含む複数のアーキテクチャとデータセットで有効性を示す。

提案手法

N-to-1、1-to-1、および 1-to-1 Stealthy 攻撃のための3つの標的損失関数を定式化する。
層内勾配ガイド付き探索と層間選択により、脆弱な重みビットを反復的に探索する。
ターゲット損失を最小化するため、マスクと勾配方向に基づくアプローチで1回の反復につき1ビットを反転する。
ハードウェア適合性のため、層ごとにNビットの一様量子化を適用し、補数（二の補数表現）でエンコードする。
CIFAR-10とImageNetで、複数のアーキテクチャに対して攻撃成功率（ASR）と攻撃後精度（TA）を評価する。
Bit-Flip プロセスのために DRAM の Row-Hammer を用いた実機プロトタイプを示す。

実験結果

リサーチクエスチョン

RQ1量子化された DNN において少数の重みビット反転が、選択された入力の標的型誤分類を信頼性高く引き起こすことができるか？
RQ2異なる攻撃タイプ（N-to-1、1-to-1、1-to-1 Stealthy）は、アーキテクチャやデータセットを横断して、効果と潜伏性の点でどのように比較されるか？
RQ3ネットワーク容量と標的型ウェイト攻撃の脆弱性の関係は何か？
RQ4実際的で特権なしの攻撃者が、DRAM フault Injection を用いた実機で T-BFA を実行できるのか？

主な発見

T-BFA は、他のクラスの精度を substantial に保ちつつ、標的の誤分類に対して少数のビット反転（例として ImageNet の ResNet-18 で Hen→Goose の場合は 27 回の反転）で 100% の攻撃成功率を達成できる。
1-to-1 攻撃は、CIFAR-10 の結果において、100% ASR に達するのに一般に N-to-1 攻撃より少ないビット反転で済む。
1-to-1 Stealthy 攻撃は、アーキテクチャに依存してターゲットクラスおよび非ターゲットクラスの精度が顕著に低下する場合がある一方で、ASR は高く（最大で約99%）示す。
ImageNet では、より大きなネットワーク（ResNet-18/34）は 1-to-1 (S) で 100% ASR を達成しつつ TA を reasonable に維持する一方、MobileNet-V2 は TA の維持に苦戦する可能性がある。
DRAM の row-hammer を用いた実機デモンストレーションは、未権限の環境での T-BFA の実現可能性を確認している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。