QUICK REVIEW

[論文レビュー] Defending against Whitebox Adversarial Attacks via Randomized Discretization

Yuchen Zhang, Percy Liang|arXiv (Cornell University)|Mar 25, 2019

Adversarial Robustness in Machine Learning参考文献 39被引用数 27

ひとこと要約

この論文では、白ボックス攻撃に対して効果的なランダム化離散化（RandDisc）を提案する。入力画像の各画素に平均0のガウスノイズを注入し、その後色空間（例：Lab空間）におけるクラスタ中心に画素を離散化することで、分類器に供給する。ImageNetにおいて強力なPGD攻撃に対して最先端の耐性を示し、敵対的訓練モデルおよびNIPS 2017コンペティションの上位防御手法を平均で少なくとも18%、最悪ケースで35%以上上回った。

ABSTRACT

Adversarial perturbations dramatically decrease the accuracy of state-of-the-art image classifiers. In this paper, we propose and analyze a simple and computationally efficient defense strategy: inject random Gaussian noise, discretize each pixel, and then feed the result into any pre-trained classifier. Theoretically, we show that our randomized discretization strategy reduces the KL divergence between original and adversarial inputs, leading to a lower bound on the classification accuracy of any classifier against any (potentially whitebox) $\\ell_\\infty$-bounded adversarial attack. Empirically, we evaluate our defense on adversarial examples generated by a strong iterative PGD attack. On ImageNet, our defense is more robust than adversarially-trained networks and the winning defenses of the NIPS 2017 Adversarial Attacks & Defenses competition.

研究の動機と目的

事前学習済みモデルの再訓練を必要としない白ボックス攻撃に対する防御手法の開発。
KLダイバージェンス低減を用いた理論的・情報理論的根拠に基づく耐性の証明。
ImageNetのような大規模データセットにおいて、PGDのような強力な反復的攻撃に対する防御の実験的評価。
ImageNetにおいて、確率的防御が敵対的訓練モデルを上回る優れた耐性を達成できることの実証。
モデルの再訓練を必要とせず、高精度なクリーン画像精度を維持しながら、ランダム化離散化が耐性を向上させることの実証。

提案手法

入力画像の各画素に平均0のガウスノイズを注入して入力分布をランダム化する。
色空間（例：Lab空間）におけるクラスタリングに基づく離散化手順を適用し、各画素を最も近いクラスタ中心にマッピングする。
再訓練を必要とせず、任意の事前学習済み分類器にランダム化・離散化された画像を入力する。
非微分可能なRandDisc防御の評価のため、微分可能近似としてランダム化混合（RandMix）を用いる。
理論的分析により、RandDiscがクリーン入力と敵対的入力間のKLダイバージェンスを低減することを示し、耐性精度の下限を提供する。
反復的PGD攻撃を用いて評価し、MNISTおよびImageNetにおいて敵対的訓練モデルや他の変換ベース防御と比較する。

実験結果

リサーチクエスチョン

RQ1再訓練を伴わない防御が、ImageNetにおける白ボックス攻撃に対して強力な耐性を示せるか？
RQ2ランダム化離散化がクリーン入力と敵対的入力間のKLダイバージェンスを低減し、耐性を証明できるか？
RQ3強力なPGD攻撃下で、RandDiscは敵対的訓練モデルおよびNIPS 2017コンペティションの上位防御と比較してどのように性能を発揮するか？
RQ4なぜRandDiscはImageNetでは耐性を向上させるが、他の確率的防御が失敗するMNISTでは効果を発揮しないのか？
RQ5確率的防御が高解像度画像（例：ImageNet）に対して非自明な認証可能な正確性の境界を提供できるか？

主な発見

ImageNetでは、ε = 1, 2, 4 のPGD攻撃下でそれぞれ62.9%、54.2%、39.5%の精度を達成し、敵対的訓練済みInceptionResNetモデルを上回った。
NIPS 2017コンペティションの上位3つの攻撃（ε = 8）に対して、RandDiscは上位3つの防御を平均で少なくとも18%、最悪ケースで35%以上上回った。
MNISTでは、ランダム化離散化と汎用CNNを組み合わせた場合、ε = 0.1で94.4%の耐性精度を達成したのに対し、元のモデルではわずか12.0%であった。
RandDiscの認証可能な正確性は、高解像度画像における累積KLダイバージェンスの上限のため、非常に小さな摂動（ε < 0.1）でのみ非自明であった。
ImageNetにおいて、RandDiscは敵対的訓練モデルよりも高い耐性を示した。これは、後者が強力な反復的攻撃に対して効果が劣っている可能性を示唆している。
RandDisc（88.6%）およびRandMix（92.7%）のクリーン画像精度は、ベース分類器（97.1%）よりも低く、耐性とクリーン精度のトレードオフが生じていることを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。