Skip to main content
QUICK REVIEW

[論文レビュー] Towards Deep Learning Models Resistant to Adversarial Attacks

Aleksander Mądry, Aleksandar Makelov|arXiv (Cornell University)|Jun 19, 2017
Adversarial Robustness in Machine Learning参考文献 30被引用数 1,538
ひとこと要約

本稿は adversarial robustness を robust optimization (minimax) 問題として位置づけ、PGD-based adversarial training を用いて高容量ネットワークを訓練し、MNIST および CIFAR-10 に対して多様な攻撃に対する強い頑健性を示す。

ABSTRACT

Recent work has demonstrated that deep neural networks are vulnerable to adversarial examples---inputs that are almost indistinguishable from natural data and yet classified incorrectly by the network. In fact, some of the latest findings suggest that the existence of adversarial attacks may be an inherent weakness of deep learning models. To address this problem, we study the adversarial robustness of neural networks through the lens of robust optimization. This approach provides us with a broad and unifying view on much of the prior work on this topic. Its principled nature also enables us to identify methods for both training and attacking neural networks that are reliable and, in a certain sense, universal. In particular, they specify a concrete security guarantee that would protect against any adversary. These methods let us train networks with significantly improved resistance to a wide range of adversarial attacks. They also suggest the notion of security against a first-order adversary as a natural and broad security guarantee. We believe that robustness against such well-defined classes of adversaries is an important stepping stone towards fully resistant deep learning models. Code and pre-trained models are available at https://github.com/MadryLab/mnist_challenge and https://github.com/MadryLab/cifar10_challenge.

研究の動機と目的

  • 深層ネットワークが対抗的なサンプルに対して脆弱である理由を説明し、 principled な頑健性目標を確立する。
  • 対抗的頑健性を inner adversarial attack と outer training objective を組み合わせた saddle-point (minimax) 最適化問題として 定式化する。
  • inner の攻撃の最適化経路と頑健性におけるネットワーク容量の役割を調査する。
  • 広範な対抗的攻撃に対して頑健なモデルを生み出すトレーニング手法を開発・評価する。
  • コミュニティによる攻撃を招待し、頑健性を評価するための難易度の高いベンチマークを提供する。

提案手法

  • パラメータ θ を最小化する頑健最適化フレームワークを採用する : ρ(θ) = E[(x,y)~D]{ max_{δ in S} L(θ, x+δ, y) } を最小化。
  • S が ell∞ 楕円球のとき inner 最大化の普遍的な一階勾配攻撃者として PGD (projected gradient descent) を扱う。
  • 外部最小化を対抗的に perturbed 入力上の SGD によって解くことで adversarial training を実施する。
  • Danskin’s theorem の直感を適用し、 inner maximizers での勾配を鞍点の降下方向として正当化する。
  • multi-start PGD による inner 最大化の損失景観を調査し、対抗最大値の集中化を分析する。
  • モデルサイズをスケールさせて強力な対抗者に対する頑健性を評価することで、ネットワーク容量の影響を探索する。

実験結果

リサーチクエスチョン

  • RQ1PGD のような一階の攻撃者は、深層ネットワークの頑健最適化定式化における inner 最大化を信頼できる形で解けるのか。
  • RQ2ネットワーク容量を増やすと対抗攻撃に対する頑健性が改善されるのか、FGSM トレーニングと PGD トレーニングの比較はどうなるのか。
  • RQ3PGD に対する対抗訓練は、他モデル間やアーキテクチャ間での対抗サンプルの転移性にどう影響するのか。
  • RQ4PGD に対する頑健性は、より広い一階の対抗者や一部のブラックボックス攻撃に対する頑健性の良い代理指標となるのか。
  • RQ5広範な対抗攻撃の下で MNIST と CIFAR-10 で達成可能な実用的な精度はどの程度か。

主な発見

  • 内側の対抗的最適化の景観は一階法に対して解けるほどで、再起動間で最大値の集中が見られる。
  • モデル容量は頑健性を著しく改善する;より大きなネットワークはより強力な対抗者にも耐え、対抗入力の転移性を低減する。
  • PGD を用いた対抗訓練は MNIST および CIFAR-10 で強い頑健性を示し、同じ強力なホワイトボックス攻撃に対して MNIST は 89% 超、CIFAR-10 は 約 46% の精度を達成。
  • 弱いブラックボックス/転移攻撃の下では、MNIST と CIFAR-10 のモデルの精度はそれぞれ 95% 超および 64% 以上を達成する。
  • FGSM に基づく訓練は過学習(ラベル漏洩)に陥りやすく、PGD 攻撃にはしばしば耐性を欠くのに対し、PGD 訓練は強力な反復攻撃に対する耐性をより高く提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。