Skip to main content
QUICK REVIEW

[論文レビュー] Intriguing Properties of Adversarial Examples

Ekin D. Cubuk, Barret Zoph|arXiv (Cornell University)|Nov 8, 2017
Adversarial Robustness in Machine Learning参考文献 19被引用数 23
ひとこと要約

この論文は、敵対的例が主にニューラルネットワーク予測における固有の不確実性に起因することを特定し、さまざまなモデルやデータセットにおいて、摂動サイズに応じた普遍的なべき乗則としての敵対的誤差のスケーリングを示している。この行動は、ロジット差の統計的分布に起因しており、ニューラルアーキテクチャ探索を用いて、より高いクリーン精度および敵対的精度を達成するより頑健なモデルを発見した。

ABSTRACT

It is becoming increasingly clear that many machine learning classifiers are vulnerable to adversarial examples. In attempting to explain the origin of adversarial examples, previous studies have typically focused on the fact that neural networks operate on high dimensional data, they overfit, or they are too linear. Here we argue that the origin of adversarial examples is primarily due to an inherent uncertainty that neural networks have about their predictions. We show that the functional form of this uncertainty is independent of architecture, dataset, and training protocol; and depends only on the statistics of the logit differences of the network, which do not change significantly during training. This leads to adversarial error having a universal scaling, as a power-law, with respect to the size of the adversarial perturbation. We show that this universality holds for a broad range of datasets (MNIST, CIFAR10, ImageNet, and random data), models (including state-of-the-art deep networks, linear models, adversarially trained networks, and networks trained on randomly shuffled labels), and attacks (FGSM, step l.l., PGD). Motivated by these results, we study the effects of reducing prediction entropy on adversarial robustness. Finally, we study the effect of network architectures on adversarial sensitivity. To do this, we use neural architecture search with reinforcement learning to find adversarially robust architectures on CIFAR10. Our resulting architecture is more robust to white \emph{and} black box attacks compared to previous attempts.

研究の動機と目的

  • さまざまなモデルやデータセットにわたる敵対的例の背後にある共通で普遍的な性質を理解すること。
  • 敵対的ロバストネスがモデルアーキテクチャーやトレーニングダイナミクスと根本的に関連しているかどうかを調査すること。
  • 予測エントロピーを低減することで敵対的ロバストネスが向上するかどうかを調査すること。
  • 強化学習に基づくニューラルアーキテクチャ探索(NAS)を用いて、敵対的ロバストなニューラルアーキテクチャを発見すること。
  • 白ボックスおよびブラックボックス攻撃に対する敵対的トレーニングとアーキテクチャ探索の有効性を評価すること。

提案手法

  • MNIST、CIFAR10、ImageNet、ランダムデータなど複数のデータセットと、線形モデル、CNN、ResNet、Inception、NASNetなど多様なモデルにおいて、摂動サイズεの関数としての敵対的誤差を分析する。
  • FGSMおよびPGD攻撃ではAε^Bの形でべき乗則スケーリングを導出するが、B ≈ 0.9–1.3であり、ステップワイズl.l.攻撃ではB ≈ 1.8–2.5である。
  • 敵対的攻撃成功確率が、最大と2番目に大きなロジットの差の累積分布に関連しており、この分布はモデルやデータセットを問わず普遍的であることを示した。
  • CIFAR10でPGD攻撃とクリーンデータを用いて、敵対的ロバストネスを最適化する強化学習ベースのニューラルアーキテクチャ探索(NAS)を実施した。
  • ε = 8における白ボックスおよびブラックボックス攻撃(FGSM、ステップワイズl.l.、PGD)を用いてロバストネスを評価し、ベースラインモデルや先行研究(例:Madry et al., 2017)と比較した。
  • 9,360個の子モデルにおいて、クリーン精度、パラメータ数、敵対的精度の相関関係を測定し、ロバストネスの予測要因を同定した。

実験結果

リサーチクエスチョン

  • RQ1異なるモデル、データセット、攻撃タイプにわたって、敵対的誤差の普遍的なスケーリング則が存在するか?
  • RQ2神経ネットワークのどの統計的性質が、敵対的行動の観察された普遍性を説明しているか?
  • RQ3予測エントロピーを低減することは、敵対的ロバストネスにどのように影響するか?
  • RQ4ニューラルアーキテクチャ探索は、白ボックスおよびブラックボックス攻撃の両方に対してより頑健なモデルを発見できるか?
  • RQ5クリーン精度と敵対的ロバストネスの相関関係はどの程度か?また、モデルサイズとは独立してロバストネスを達成できるか?

主な発見

  • 敵対的誤差は摂動サイズεのべき乗則に従い、FGSMおよびPGD攻撃では指数B ≈ 0.9–1.3、ステップワイズl.l.攻撃ではB ≈ 1.8–2.5である。この関係は、研究されたすべてのデータセットおよびモデルで成り立つ。
  • べき乗則スケーリングは普遍的であり、ラベルをランダムにシャッフルして訓練されたモデルに対しても成立するため、データ構造や一般化の影響ではないことが示された。
  • 敵対的感受性の関数的形態は、最大と2番目に大きなロジットの差の累積分布に起因しており、これはモデルやデータセットを問わず普遍的である。
  • 敵対的NASで発見された最良のアーキテクチャは、ε=8におけるPGD攻撃で93.2%のクリーン精度と75.0%の敵対的精度を達成し、Madry et al. (2017) よりもクリーン精度(+5.9%)とブラックボックスロバストネスの両方で優れていた。
  • 敵対的精度はクリーン精度と強く相関している(r ≈ 0.8)が、高いクリーン精度だけではロバストネスが保証されない。クリーン精度が85%以上のモデルでは、敵対的精度の分散が依然として大きく(σ ≈ 2.6%)、変動が著しい。
  • 単一ステップの敵対的例で訓練しても、ε < 0.2の小さな摂動攻撃に対してはほとんど防御効果が得られないが、大きなε攻撃に対しては強力な防御が得られる。これは、小さな摂動と大きな摂動に対しては異なるメカニズムが働く可能性を示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。