Skip to main content
QUICK REVIEW

[論文レビュー] The Robust Manifold Defense: Adversarial Training using Generative Models

Ajil Jalal, Andrew Ilyas|arXiv (Cornell University)|Dec 26, 2017
Adversarial Robustness in Machine Learning参考文献 47被引用数 126
ひとこと要約

論文は、スペーサー(GAN/VAEs)を用いた潜在空間の超強力攻撃を導入し、潜在空間で近いが分類器出力が異なる対生成ペアを作成し、DefenseGANを回避し、MNISTの頑健性を新しいミンマックス対戦訓練フレームワークで向上させる。

ABSTRACT

We propose a new type of attack for finding adversarial examples for image classifiers. Our method exploits spanners, i.e. deep neural networks whose input space is low-dimensional and whose output range approximates the set of images of interest. Spanners may be generators of GANs or decoders of VAEs. The key idea in our attack is to search over latent code pairs to find ones that generate nearby images with different classifier outputs. We argue that our attack is stronger than searching over perturbations of real images. Moreover, we show that our stronger attack can be used to reduce the accuracy of Defense-GAN to 3\%, resolving an open problem from the well-known paper by Athalye et al. We combine our attack with normal adversarial training to obtain the most robust known MNIST classifier, significantly improving the state of the art against PGD attacks. Our formulation involves solving a min-max problem, where the min player sets the parameters of the classifier and the max player is running our attack, and is thus searching for adversarial examples in the {\em low-dimensional} input space of the spanner. All code and models are available at \url{https://github.com/ajiljalal/manifold-defense.git}

研究の動機と目的

  • 現実データ分布を近似する低次元潜在空間を活用して、より強力な敵対的攻撃を動機づける。
  • 潜在ペアを検索して出力の発散を最大化しつつ潜在距離を小さく保つ超強力攻撃を提案する。
  • この攻撃を敵対的訓練と組み合わせることでMNIST上の最先端の頑健性を示す。
  • このアプローチがDefenseGANを完全に回避できること、および敵対的防御の改善に適用可能であることを示す。

提案手法

  • データ多様体を近似する範囲を持つスパンナー G: R^k -> R^n を定義する。
  • 潜在コード z, z' に関する max-min 問題として超強力攻撃を定式化し、 ||G(z) - G(z')||_2^2 <= (2η+ε)^2 の制約を課す。
  • 攻撃を頑健なミンマックス目的関数に組み込み、分類器の精度と攻撃強度のバランスを取る(inf_θ μ(sup_{z,z'} L(Cθ(G(z)), Cθ(G(z')))) + (1-μ) 訓練損失)。
  • 潜在空間攻撃が実画像に近いペアを生成し、分類器を誤らせることができることを証明して DefenseGAN を回避する。
  • 超強力攻撃を用いた敵対的訓練を MNIST および CelebA データセットに適用し、白箱 ℓ2-ノルム摂動に対する頑健性を向上させる。
  • Madry らおよび TRADES に対する経験的比較結果を提供する。

実験結果

リサーチクエスチョン

  • RQ1潜在空間での、生成スパンナーの範囲内にある超強力な攻撃が、伝統的な摂動よりも強力な敵対的例を生み出すことができるか。
  • RQ2このような潜在空間攻撃を敵対的訓練に組み込むと、MNISTおよびCelebAで既存手法(例:Madry、TRADES)よりも頑健性を高められるか。
  • RQ3Spanner に入力を射影する DefenseGAN や INC に依存する防御を潜在空間攻撃がどの程度回避できるか。
  • RQ4攻撃探索空間を低次元の多様体に制限することで、敵対的訓練の頑健最適化の有効性と計算性が改善されるか。

主な発見

攻撃Madry et al.TRADES私たちの
PGD (40 steps, δ=1.5)89.93%91.88%96.26%96.26%
PGD (100 steps, δ=1.5)89.87%91.82%96.25%96.25%
PGD (40 steps, δ=2.5)76.09%69.59%95.21%95.21%
PGD (100 steps, δ=2.5)75.90%68.86%95.16%95.16%
  • 超強力な潜在空間攻撃は DefenseGAN の効果を大幅に低下させ、設定の下で約3%の精度程度まで落とす。
  • 超強力な攻撃を敵対的訓練と組み合わせると、MNIST の白箱 PGD 攻撃に対する頑健性が向上し、特定設定で最大 96.26% の敵対的精度を達成。
  • ℓ2 摂動半径 1.5 に対する TRADES ベースのベースラインより MNIST 上の頑健性を改善し、96.26% 対 91.88% に達する。
  • δ が最大 2.5 の場合、他のベースラインが劣化する中でも高い頑健性(約 95% 以上)を維持。
  • 潜在空間攻撃は決定境界付近で自然な不確実性を示す頑健な分類器を訓練できることを示し、MNIST と CelebA で実証。
  • この手法は DefenseGAN を以前のアプローチよりも効果的に撹乱できることを示し、スペランパーニ基盤の防御のより広い含意を示唆。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。