Skip to main content
QUICK REVIEW

[論文レビュー] Robust Perception through Analysis by Synthesis.

Lukas Schott, Jonas Rauber|arXiv (Cornell University)|May 23, 2018
Adversarial Robustness in Machine Learning参考文献 13被引用数 19
ひとこと要約

本論文は、学習されたクラス条件付きデータ分布を用いた合成による分析を用いて、MNISTにおける最先端の敵対的ロバスト性を達成する、新しいロバストな分類モデルを提案する。L0、L2、およびL-infinity攻撃に対して強く耐性を持ち、歪みが最小限のピクセル数で攻撃される新しい意思決定ベースの攻撃を含み、敵対的例は視覚的に妥当であり、クラス間の境界に近づく傾向を示す。

ABSTRACT

Despite much effort, deep neural networks remain highly susceptible to tiny input perturbations and even for MNIST, one of the most common toy datasets in computer vision, no neural network model exists for which adversarial perturbations are large and make semantic sense to humans. We show that even the widely recognized and by far most successful defense by Madry et al. (1) overfits on the L-infinity metric (it's highly susceptible to L2 and L0 perturbations), (2) classifies unrecognizable images with high certainty, (3) performs not much better than simple input binarization and (4) features adversarial perturbations that make little sense to humans. These results suggest that MNIST is far from being solved in terms of adversarial robustness. We present a novel robust classification model that performs analysis by synthesis using learned class-conditional data distributions. We derive bounds on the robustness and go to great length to empirically evaluate our model using maximally effective adversarial attacks by (a) applying decision-based, score-based, gradient-based and transfer-based attacks for several different Lp norms, (b) by designing a new attack that exploits the structure of our defended model and (c) by devising a novel decision-based attack that seeks to minimize the number of perturbed pixels (L0). The results suggest that our approach yields state-of-the-art robustness on MNIST against L0, L2 and L-infinity perturbations and we demonstrate that most adversarial examples are strongly perturbed towards the perceptual boundary between the original and the adversarial class.

研究の動機と目的

  • MNISTにおける深層ニューラルネットワークの、微小で人間には感知できない敵対的歪みに対する持続的な脆弱性に対処すること。
  • 既存の防御、特にMadryらのL-infinityロバストモデルが本質的なロバスト性を提供しているという仮定に挑戦すること。
  • クラス条件付きデータ分布の生成モデルに基づく、より優れたロバスト性を実現する新しい防御機構の開発。
  • L0、L2、L-infinityノルムを含む多様なLpノルムにおける敵対的攻撃を用いた、実験的評価を通じてのロバスト性の評価。

提案手法

  • モデルは、学習されたクラス条件付きデータ分布からサンプルを生成することで、分類をガイドする分析による合成を実行する。
  • 再構成に基づく意思決定を可能にするために、各クラスごとのデータ分布をモデル化するための変分自己オートエンコーダに類似したフレームワークを用いる。
  • 敵対的例の尤度が生成モデル下で境界に達するように解析的にバインドすることで、ロバスト性を導出する。
  • 構造的弱みを突くために、歪みピクセル数(L0)を最小化することを焦点とした新しい意思決定ベースの攻撃を設計する。
  • 勾配ベース、スコアベース、トランスファー基地、意思決定ベースの攻撃を組み合わせて、L0、L2、L-infinityノルムのすべてでモデルを評価する。
  • 敵対的例の分析により、元のクラスと敵対的クラスの間の知覚的境界に一貫してシフトする傾向があることを示す。

実験結果

リサーチクエスチョン

  • RQ1生成モデルに基づく防御は、既存の防御と比較して、MNISTにおける複数のLpノルムで優れたロバスト性を達成できるか?
  • RQ2このモデルに対する敵対的例は、人間にとって視覚的に整合性があり意味を持つか?
  • RQ3歪みピクセル数(L0)を最小化する新しい意思決定ベースの攻撃は、提案された防御を効果的に回避できるか?
  • RQ4モデルのロバスト性は、特定の攻撃タイプに過剰適合しているのではなく、本質的な分布理解に基づくものか?
  • RQ5生成された敵対的例は、どの程度、元のクラスと敵対的クラスの間の知覚的境界に近づくか?

主な発見

  • 提案されたモデルは、MNISTにおけるL0、L2、L-infinityの敵対的攻撃に対して、最先端のロバスト性を達成した。
  • Madryらの防御は、その評判にもかかわらず、L-infinity指標では過剰適合しており、L2およびL0攻撃では失敗した。
  • モデルは、認識不能な入力を低信頼度で分類するため、標準的な防御よりも良好なキャリブレーションを示している。
  • このモデルに対する敵対的例は、元のクラスと敵対的クラスの間の知覚的境界に強くシフトする傾向を示した。
  • 新しい意思決定ベースの攻撃は、歪みピクセル数(L0)を効果的に最小化し、防御を効果的に回避できた。これは、最小限の歪みでもモデルのロバスト性が保たれていることを示している。
  • 入力の二値化は、一部の防御と同等の性能を示し、現在のロバスト性に関する主張が誇張されている可能性を示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。