Skip to main content
QUICK REVIEW

[論文レビュー] Enhancing the Transferability of Adversarial Attacks through Variance Tuning

Xiaosen Wang, Kun He|arXiv (Cornell University)|Mar 29, 2021
Adversarial Robustness in Machine Learning参考文献 36被引用数 26
ひとこと要約

この論文は、転移性を高めるために勾配ベースの反復型敵対的攻撃に分散(variance)チューニングを導入し、ブラックボックス defenses に対して特に転移性を高めつつ、ホワイトボックスでの成功を維持します。ImageNet での強い向上と、入力変換およびアンサンブルでの効果を示します。

ABSTRACT

Deep neural networks are vulnerable to adversarial examples that mislead the models with imperceptible perturbations. Though adversarial attacks have achieved incredible success rates in the white-box setting, most existing adversaries often exhibit weak transferability in the black-box setting, especially under the scenario of attacking models with defense mechanisms. In this work, we propose a new method called variance tuning to enhance the class of iterative gradient based attack methods and improve their attack transferability. Specifically, at each iteration for the gradient calculation, instead of directly using the current gradient for the momentum accumulation, we further consider the gradient variance of the previous iteration to tune the current gradient so as to stabilize the update direction and escape from poor local optima. Empirical results on the standard ImageNet dataset demonstrate that our method could significantly improve the transferability of gradient-based adversarial attacks. Besides, our method could be used to attack ensemble models or be integrated with various input transformations. Incorporating variance tuning with input transformations on iterative gradient-based attacks in the multi-model setting, the integrated method could achieve an average success rate of 90.1% against nine advanced defense methods, improving the current best attack performance significantly by 85.1% . Code is available at https://github.com/JHL-HUST/VT.

研究の動機と目的

  • 勾配ベースの敵対的サンプルの転移性を動機づけて改善し、特に defended(ブラックボックス)モデルに対して効果を高める。
  • 現在の入力の周囲の勾配更新を安定させる分散チューニング機構を提案する。
  • 入力変換およびアンサンブルモデルと組み合わせたときに分散チューニングが攻撃力を高めることを示す。
  • 提案手法がホワイトボックスの性能を維持しつつ、ブラックボックスの成功率を著しく向上させることを示す。

提案手法

  • 現在の入力の周囲で勾配分散を定義する。
  • 各反復で、モーメンタムステップの前に周囲分散を用いて現在の勾配をチューニングする。
  • 分散チューニングした勾配の符号を用いて固定ステップサイズで敵対的サンプルを更新する。
  • この手法をNI-FGSMおよびDIM/TIM/SIM(CTM)入力変換へ拡張する。
  • 近傍でサンプリング(N)して勾配分散を近似し、近傍の境界(beta)を用いる。
  • 通常訓練モデルと敵対的訓練モデルを含むImageNet上で評価する。

実験結果

リサーチクエスチョン

  • RQ1分散チューニングは見知らぬモデルや defended モデルへの反復的勾配ベース攻撃の転移性を改善できるか?
  • RQ2分散チューニングのハイパーパラメータ(近傍サイズ beta およびサンプル数 N)は転移性と計算コストにどう影響するか?

主な発見

  • 分散チューニングされた攻撃(VMI-FGSM/VNI-FGSM)は、ブラックボックスモデルでベースラインのMI-FGSM/NI-FGSMを上回り、ホワイトボックス性能を高く保つ。
  • 分散チューニングを入力変換(DIM/TIM/SIM)と統合すると転移性がさらに向上し、特に敵対的訓練モデルに対して効果が大きい。
  • アンサンブル設定では、分散チューニング攻撃はベースラインより大きな改善を達成し、先進的な防御に対しても顕著な効果を示す。
  • 9つの防御モデルに対して、統合手法はマルチモデル設定で平均成功率90.1%を達成し、ベースラインを6.6%上回る。
  • アブレーション分析では beta を約1.5、N を約20とすることで転移性と計算コストのバランスがとれる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。