Skip to main content
QUICK REVIEW

[論文レビュー] Towards the first adversarially robust neural network model on MNIST

Lukas Schott, Jonas Rauber|arXiv (Cornell University)|May 23, 2018
Adversarial Robustness in Machine Learning参考文献 31被引用数 86
ひとこと要約

本論文は MNIST がまだ敵対的頑健性を満たしていないと主張し、クラス条件付き VAE を用いた Analysis by Synthesis (ABS) を導入して L0・L2・L∞ 攻撃の最先端の頑健性を達成し、意味的に意味のある敵対的例を示す。

ABSTRACT

Despite much effort, deep neural networks remain highly susceptible to tiny input perturbations and even for MNIST, one of the most common toy datasets in computer vision, no neural network model exists for which adversarial perturbations are large and make semantic sense to humans. We show that even the widely recognized and by far most successful defense by Madry et al. (1) overfits on the L-infinity metric (it's highly susceptible to L2 and L0 perturbations), (2) classifies unrecognizable images with high certainty, (3) performs not much better than simple input binarization and (4) features adversarial perturbations that make little sense to humans. These results suggest that MNIST is far from being solved in terms of adversarial robustness. We present a novel robust classification model that performs analysis by synthesis using learned class-conditional data distributions. We derive bounds on the robustness and go to great length to empirically evaluate our model using maximally effective adversarial attacks by (a) applying decision-based, score-based, gradient-based and transfer-based attacks for several different Lp norms, (b) by designing a new attack that exploits the structure of our defended model and (c) by devising a novel decision-based attack that seeks to minimize the number of perturbed pixels (L0). The results suggest that our approach yields state-of-the-art robustness on MNIST against L0, L2 and L-infinity perturbations and we demonstrate that most adversarial examples are strongly perturbed towards the perceptual boundary between the original and the adversarial class.

研究の動機と目的

  • MNIST の敵対的頑健性は現在の防御では未解決であることを示す。
  • 分析による生成(analysis by synthesis, ABS)とクラス条件付き分布に基づく頑健な分類モデルを提案する。
  • インスタンス固有の頑健性保証と強力な攻撃評価を提供する。
  • ABS が人間の知覚境界に近い意味的に意味のある敵対的例を生み出すことを示す。

提案手法

  • 各クラスごとに p(x|y) を学習してクラス条件付きデータ分布を学習する独立した VAE を訓練する。
  • 各クラスに対して潜在空間で勾配降下を行い、各クラスのインスタンス固有の対数尤度の下限(ell_y*)を計算する。
  • eta の小さなオフセットを用いた exp(alpha ell_y*) のクラス条件付き softmax で分類を行い、アウト・オブ・ディストリビューション入力に対する過剰な確信を避ける。
  • 必要に応じて画素の二値化と識別的ファインチューニング(Binary ABS)を適用して頑健性と精度を向上させる。
  • 多様な敵対的攻撃を開発・適用する(勾配ベース、スコアベース、決定ベース、転送ベース)で、 novel Latent Descent attack と新しい L0 decision-based attack を含む。
  • 頑健性に関する解析的境界(epsilon)を提供し、Madry スタイルの敵対的訓練と比較する。

実験結果

リサーチクエスチョン

  • RQ1クラス条件付きデータ分布を用いた分析による生成モデルは、MNIST における敵対的頑健性を現状の最先端防御を超えて改善できるか。
  • RQ2インスタンス固有の頑健性保証は複数の攻撃の脅威モデル(L0、L2、L∞)下でどう振る舞うか。
  • RQ3ABS の敵対的例は意味を持ち、人間の知覚と前例の防御と比較してどのように整合するか。
  • RQ4二値化と識別的ファインチューニングが頑健性と精度に与える影響は何か。

主な発見

  • ABS は L0、L2、L∞ の撲滅的撹乱に対して MNIST で最先端の頑健性を達成する。
  • L2 に関して、ABS は他のすべてのモデルを中央値の敵対的距離で上回る。
  • L∞ に関して、Binary ABS は中央値摂動サイズで最先端で、閾値設定が知覚的頑健性に影響を与える。
  • L0 に関して、ABS および Binary ABS は Madry らの防御を含むすべての他モデルより頑健である。
  • 下限頑健性推定は ABS μ-L2 頑健性 ε ≈ 0.690 ± 0.005(平均)および Binary ABS ≈ 0.601 ± 0.005(平均、MNIST の下で)を示す。
  • ABS の敵対的例は意味的に意味があり、元のクラスと敵対クラスの知覚境界付近に位置する。
  • 著者らは広範な攻撃評価(潜在変数、決定ベース、転送ベース、勾配ベース)を提供し、頑健性評価の限界を認めている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。