Skip to main content
QUICK REVIEW

[論文レビュー] Targeted Attack against Deep Neural Networks via Flipping Limited Weight Bits

Jiawang Bai, Baoyuan Wu|arXiv (Cornell University)|Feb 21, 2021
Adversarial Robustness in Machine Learning参考文献 53被引用数 29
ひとこと要約

この論文は、限られた数のウェイトビットを反転させて特定のサンプルをターゲットクラスへ導くことで、全体の精度を維持しつつデプロイ済みDNNに対する標的型ビット反転攻撃を定式化・解決し、ell_p-box ADMM最適化アプローチを用いる。

ABSTRACT

To explore the vulnerability of deep neural networks (DNNs), many attack paradigms have been well studied, such as the poisoning-based backdoor attack in the training stage and the adversarial attack in the inference stage. In this paper, we study a novel attack paradigm, which modifies model parameters in the deployment stage for malicious purposes. Specifically, our goal is to misclassify a specific sample into a target class without any sample modification, while not significantly reduce the prediction accuracy of other samples to ensure the stealthiness. To this end, we formulate this problem as a binary integer programming (BIP), since the parameters are stored as binary bits ($i.e.$, 0 and 1) in the memory. By utilizing the latest technique in integer programming, we equivalently reformulate this BIP problem as a continuous optimization problem, which can be effectively and efficiently solved using the alternating direction method of multipliers (ADMM) method. Consequently, the flipped critical bits can be easily determined through optimization, rather than using a heuristic strategy. Extensive experiments demonstrate the superiority of our method in attacking DNNs.

研究の動機と目的

  • 展開済みモデルのパラメータを限られたビット反転で修正し、特定の入力をターゲットクラスへ誤分類させる新規攻撃を動機付け・検討する。
  • 反転のカーディナリティ制約を持つ二値整数計画問題として問題を定式化する。
  • ell_p-box ADMMを用いて反転が重要なビットを特定する効率的な連続最適化解を開発する。
  • 量子化DNNと防御手法に対する効果と隠密性をデータセット全体で実証する。
  • 実装段階の攻撃における頑健性と実務的考慮点について洞察を提供する。

提案手法

  • 最後の層の重みを二値量としてモデル化し、ターゲットサンプルのターゲットクラスのロジットを増加させ、出発クラスのロジットを減少させる損失を定義する。
  • 補助的な良性サンプルに対する隠密性目的を導入して他の入力への影響を制約する。
  • 問題をTA-LBFとして、反転されたビットのハミング距離/ユークリッド距離の制約の下で2つの損失の和を最小化する。
  • BIPをell_p-box ADMMアプローチを用いて連続問題へと再定式化し、ボックスと球面制約を扱う変数として(u1, u2, u3)を導入する。
  • u1, u2, u3を並列に更新する交互最適化スキームを用い、b-hatを近似的勾配法で更新し、デュアル変数を勾配上昇で更新する。
  • ボックスと球面制約への射影、b-hatの勾配降下ステップを含む更新則を提供(微分の補足を付録として詳述)。

実験結果

リサーチクエスチョン

  • RQ1デプロイ済みDNNウェイトのほんの少数のビットを反転させるだけで、単一サンプルのターゲット誤分類を達成できるか。
  • RQ2連続的なADMMベースのソルバーを用いてビット反転を最適化することは、量子化モデル間でヒューリスティックなビット選択戦略を上回るか。
  • RQ3TA-LBF法はピース-wiseクラスタリングなどの防御やより大きなモデル容量の下でどう機能するか。
  • RQ4攻撃は非攻撃サンプルへの影響を制限し、反転数を少なく抑える隠密性を持つか。
  • RQ5CIFAR-10とImageNetの異なるアーキテクチャとビット幅で方法は拡張可能か。

主な発見

  • TA-LBF法は、テスト済みのビット幅とアーキテクチャにおいて非常に少ないビット反転で100%の攻撃成功率を達成する。
  • TA-LBFはターゲット外の入力に対して攻撃後の精度を高く維持し、隠密性を示す。
  • TA-LBFはASRと反転数の観点でヒューリスティックな重み攻撃ベースラインより優れる(N_flipが小さい)。
  • 防御機構(ピース-wiseクラスタリングなど)や大規模なネットワーク容量に対しても効果を維持し、TA-LBFは高いASRと比較的低いN_flipを示す。
  • 実験はCIFAR-10とImageNetをResNetおよびVGGアーキテクチャ全体で実施し、TA-LBFの広範な適用性を示す。
  • このアプローチは量子化モデルにも拡張可能で、防御メカニズムに対する頑健性を示しつつターゲットの誤分類を維持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。