[論文レビュー] Robust Neural Networks using Randomized Adversarial Training
この論文は、$ε$-有界の adversarial training とランダムノイズ注入を組み合わせることで、$ε$-有界の $ℓ_{\infty}$ および $ℓ_2$ adversarial 攻撃に対する防御を可能にする Randomized Adversarial Training (RAT) を提案する。RAT は adversarial training と randomized smoothing の相補的な強みを活用することで、Wide-ResNet 28-10 を用いた CIFAR-10 において、強力な C&W 攻撃に対しても 0.39 のテスト精度を維持する優れた耐性を達成する。
This paper tackles the problem of defending a neural network against adversarial attacks crafted with different norms (in particular $\ell_\infty$ and $\ell_2$ bounded adversarial examples). It has been observed that defense mechanisms designed to protect against one type of attacks often offer poor performance against the other. We show that $\ell_\infty$ defense mechanisms cannot offer good protection against $\ell_2$ attacks and vice-versa, and we provide both theoretical and empirical insights on this phenomenon. Then, we discuss various ways of combining existing defense mechanisms in order to train neural networks robust against both types of attacks. Our experiments show that these new defense mechanisms offer better protection when attacked with both norms.
研究の動機と目的
- 既存の防御が $ℓ_{\infty}$ または $ℓ_2$ のいずれかの攻撃に対してのみ有効であるという耐性のギャップを解消すること。
- adversarial training とランダムノイズ注入を組み合わせることで、複数の攻撃ノルムに対して耐性を持つモデルが得られるかどうかを調査すること。
- Mixed Adversarial Training (MAT)、Mixed Noise Injection (MNI)、および提案された Randomized Adversarial Training (RAT) を含む、混合防御戦略の性能を評価・比較すること。
- $ℓ_{\infty}$ と $ℓ_2$ adversarial ball が高次元空間で不整合である理由を理論的および実験的に裏付けること。
提案手法
- adversarial examples を $ℓ_{\infty}$ および $ℓ_2$ ノルム両方から得るとともに、訓練中にランダムノイズ注入を組み合わせた訓練手順である Randomized Adversarial Training (RAT) を提案する。
- クリーンデータに対する標準的な交差エントロピー損失、$ℓ_{\infty}$-有界摂動に対する adversarial loss、$ℓ_2$-有界摂動に対する adversarial loss を含むハイブリッド訓練目的関数を用いる。
- テスト時に Expectation Over Transformation (EOT) を用いてノイズ注入を実施し、一様分布および正規分布からのノイズを用いて耐性を強化する。
- 白箱、非指向的設定下で、PGD (20イテレーション) および C&W (60イテレーション) 攻撃を用い、$ε_{\infty} = 0.031$ および $ε_2 = 0.83$ として、強力で同等の攻撃強度を確保する。
- RAT を MAT (混合 adversarial training) および MNI (混合ノイズ注入) と比較し、複数の攻撃タイプにおける耐性を評価する。
- 標準的なハイパーパrameterを用い、4台の V100 GPU を用いて Wide-ResNet 28-10 を CIFAR-10 で訓練し、収束を確認するため最大2日間訓練する。
実験結果
リサーチクエスチョン
- RQ1$ℓ_{\infty}$-防御モデルが $ℓ_2$-ベースの攻撃に対して失敗する理由、逆に $ℓ_2$-防御モデルが $ℓ_{\infty}$-攻撃に対して失敗する理由は何か?(摂動体積が類似しているにもかかわらず)
- RQ2adversarial training とランダムノイズ注入を組み合わせることで、$ℓ_{\infty}$ および $ℓ_2$ adversarial 攻撃の両方に対して耐性を持つモデルが得られるか?
- RQ3異なるノイズタイプおよびその混合が、ランダム化防御における耐性にどのように影響するか?
- RQ4Randomized Adversarial Training (RAT) は、MAT や MNI などの既存の混合防御戦略を上回る性能を示すか?
- RQ5高次元入力空間における $ℓ_{\infty}$ と $ℓ_2$ adversarial ball の重複が悪い理由は何か?幾何学的根拠は?
主な発見
- $ℓ_{\infty}$ および $ℓ_2$ adversarial ball は、CIFAR-10 のような高次元空間ではほとんど不整合であることが判明し、これにより片方のノルムに対して有効な防御が、もう片方に対しては失敗する理由が説明できる。
- Mixed Adversarial Training (MAT) は PGD 攻撃に対して強い防御を示すが、C&W 攻撃に対しては失敗し、攻撃タイプ間での一般化の限界が示された。
- Mixed Noise Injection (MNI) は C&W 攻撃に対しては良好な性能を示すが、$ℓ_{\infty}$ ノルム下での PGD 攻撃に対しては弱い保護を提供する。
- Randomized Adversarial Training (RAT) は C&W 攻撃に対して 0.39 の最小耐性精度を達成し、MNI(正規分布ノイズ使用時で 0.22)および MAT よりも顕著に優れた性能を示した。
- $ℓ_{\infty}$-adversarial examples と一様分布ノイズ注入を組み合わせた RAT が、両方の攻撃タイプに対して最良のトレードオフを実現した。
- 理論的分析により、次元が増加するに従い、$ℓ_{\infty}$ と $ℓ_2$ ball 間の重複が指数関数的に減少するという事実が確認され、単一ノルム防御の失敗の根本的要因が裏付けられた。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。