Skip to main content
QUICK REVIEW

[論文レビュー] The Limitations of Adversarial Training and the Blind-Spot Attack

Huan Zhang, Hongge Chen|arXiv (Cornell University)|Jan 15, 2019
Adversarial Robustness in Machine Learning参考文献 52被引用数 62
ひとこと要約

本論文は、敵対的訓練の頑健性がテスト点が訓練データの多様体にどれだけ近いかに強く依存することを示し、ブラインドスポット攻撃を導入し、高次元データセットにおける強力な防御でも脆弱性があることを示している。

ABSTRACT

The adversarial training procedure proposed by Madry et al. (2018) is one of the most effective methods to defend against adversarial examples in deep neural networks (DNNs). In our paper, we shed some lights on the practicality and the hardness of adversarial training by showing that the effectiveness (robustness on test set) of adversarial training has a strong correlation with the distance between a test point and the manifold of training data embedded by the network. Test examples that are relatively far away from this manifold are more likely to be vulnerable to adversarial attacks. Consequentially, an adversarial training based defense is susceptible to a new class of attacks, the "blind-spot attack", where the input images reside in "blind-spots" (low density regions) of the empirical distribution of training data but is still on the ground-truth data manifold. For MNIST, we found that these blind-spots can be easily found by simply scaling and shifting image pixel values. Most importantly, for large datasets with high dimensional and complex data manifold (CIFAR, ImageNet, etc), the existence of blind-spots in adversarial training makes defending on any valid test examples difficult due to the curse of dimensionality and the scarcity of training data. Additionally, we find that blind-spots also exist on provable defenses including (Wong & Kolter, 2018) and (Sinha et al., 2018) because these trainable robustness certificates can only be practically optimized on a limited set of training data.

研究の動機と目的

  • テスト点と訓練データ多様体の距離が敵対的訓練の有効性にどのように関連するかを測定する。
  • 入力が低密度領域にあるが真のデータ分布から来ているブラインドスポット攻撃クラスを特定・定義する。
  • いくつかの強力な防御にもブラインドスポットが存在することを示し、変換された入力が脆弱性を露出させることを示す。
  • 本質的次元数が高いデータセットへ敵対的訓練をスケールさせることの含意を論じる。

提案手法

  • 訓練多様体からの距離を定量化するために、深層埋め込み空間でk最近傍(k-NN)の平均距離を用いる距離指標を提案する。
  • ニューラル特徴抽出後に非線形法(t-SNE)で埋め込みを射影し、訓練分布とテスト分布を比較し、経験的分布間のKL発散を推定する。
  • 入力にスケール・シフト変換を適用してブラインドスポット攻撃を定義し、変換後の画像に小さな歪みを与えた敵対的事例を作成する。
  • 指定されたepsilon境界の下で Madry らの敵対訓練と C&W 攻撃を用いて MNIST、Fashion-MNIST、CIFAR-10 で頑健性と攻撃成功率を評価する。
  • 頑健性は訓練データへの距離に相関し、ブラインドスポットが認証防御にも影響を及ぼし得ることを示す。)

実験結果

リサーチクエスチョン

  • RQ1敵対的訓練の頑健性はテスト点と訓練データ多様体との距離と相関するか?
  • RQ2訓練データから遠い入力(ブラインドスポット)は、正しく分類される一方で、わずかな変形で簡単に摂動され得るか?
  • RQ3ブラインドスポットは認証防御を含む強力な防御にも存在し得るか、そして単純な変換でそれらを暴露できるか?
  • RQ4高次元データが敵対的訓練のスケーラビリティに与える影響は何か?
  • RQ5自然な精度を損なうことなく、単純な入力変換は頑健性にどう影響するか?

主な発見

  • MNIST、Fashion-MNIST、CIFAR-10 に跨るテストデータに対する敵対的訓練の有効性は訓練多様体への距離と相関する。
  • ブラインドスポット入力は経験的訓練分布の低密度領域に存在するが、真のデータ多様体上にあり、わずかな歪みで攻撃しやすい。
  • 単純なスケール・シフト変換は MNIST および Fashion-MNIST のモデルにブラインドスポットを明らかにし、自然精度を顕著に損なうことなく。
  • ブラインドスポットは強力な防御に蔓延しており、その存在は CIFAR-10 や ImageNet のような高次元データセットへの頑健性のスケーリングが限られる理由を説明する。
  • CIFAR-10 は訓練分布とテスト分布のKL発散がより大きく、敵対訓練モデルに対する攻撃成功率が高い(MNIST/Fashion-MNIST と比較して)。
  • 実験は、わずかな入力摂動が元のテスト画像をブラインドスポットに押し込み、訓練精度が高い状態でも頑健性を損なう可能性を示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。