Skip to main content
QUICK REVIEW

[論文レビュー] PixelDefend: Leveraging Generative Models to Understand and Defend against Adversarial Examples

Yang Song, Taesup Kim|arXiv (Cornell University)|Oct 30, 2017
Adversarial Robustness in Machine Learning参考文献 33被引用数 293
ひとこと要約

本論文は敵対的例が訓練データの低確率領域に存在することを示し、PixelDefend を導入する。PixelDefend は PixelCNN 密度モデルを用いたモデル非依存の精製手法で、入力を訓練分布へ移すことで敵対的摂動を検出・防御する。

ABSTRACT

Adversarial perturbations of normal images are usually imperceptible to humans, but they can seriously confuse state-of-the-art machine learning models. What makes them so special in the eyes of image classifiers? In this paper, we show empirically that adversarial examples mainly lie in the low probability regions of the training distribution, regardless of attack types and targeted models. Using statistical hypothesis testing, we find that modern neural density models are surprisingly good at detecting imperceptible image perturbations. Based on this discovery, we devised PixelDefend, a new approach that purifies a maliciously perturbed image by moving it back towards the distribution seen in the training data. The purified image is then run through an unmodified classifier, making our method agnostic to both the classifier and the attacking method. As a result, PixelDefend can be used to protect already deployed models and be combined with other model-specific defenses. Experiments show that our method greatly improves resilience across a wide variety of state-of-the-art attacking methods, increasing accuracy on the strongest attack from 63% to 84% for Fashion MNIST and from 32% to 70% for CIFAR-10.

研究の動機と目的

  • 敵対的摂動がほとんど訓練分布の低確率領域に広く占めることを、攻撃を跨いで動機付ける。
  • 最近のニューラル密度モデルが尤度/カバレッジ統計を用いて知覚不能な敵対的摂動を検出できることを示す。
  • 分類器を変更せず、訓練分布の高密度領域へ入力を移動させることで精製する PixelDefend を提案する。
  • PixelDefend が CFAIR-10 および Fashion-MNIST に対して広範な攻撃セットに対する堅牢性を向上させ、既存の防御と補完的に機能することを示す。

提案手法

  • クリーンな訓練データで PixelCNN を訓練し、入力分布 p(X) をモデル化する。
  • 尤度を用いて、p(X) と訓練サンプル内での順位を、置換に基づく p 値によって算出して敵対的入力を検出する。
  • 入力値の L∞ ε-ボール内で最も確率の高い画像を見つけることとして PixelDefend を定式化し、貪欲デコード手法で近似する。
  • PixelCNN の下でより高い p(X*) を持つ X* を生成する、キャッシュを用いた貪欲デコード付きの高速な精製手順を実装する。
  • 分類器は変更せず、PixelDefend は他の防御法(例:敵対的訓練)と互換性がある。

実験結果

リサーチクエスチョン

  • RQ1生成密度モデルは異なる攻撃に対して敵対的例を信頼性高く検出できるか?
  • RQ2訓練分布へ入力を精製することで、敵対的摂動下で分類器の精度が向上するか?
  • RQ3PixelDefend は攻撃-agnostic およびモデル-agnostic で堅牢か、既存の防御と組み合わせられるか?
  • RQ4防御強度の適応的チューニングが、クリーン入力と敵対的入力の性能にどう影響するか?

主な発見

  • PixelCNN の尤度は、敵対的例に対するクリーン画像よりも大幅に低く、摂動が低確率領域に存在することを示している。
  • PixelCNN から導出された p 値は、複数の攻撃法を横断して敵対的入力の検出に有効であることを示す。
  • PixelDefend の精製は訓練分布下でのクリーン化された入力の確率を高め、強力な攻撃下での精度を著しく向上させる(例:CIFAR-10 最強攻撃で 32% → 70%)。
  • PixelDefend はモデル-agnostic かつ攻撃-agnostic であり、敵対的訓練と組み合わせてロバスト性をさらに高めることができる。
  • 適応的な PixelDefend は高確率入力に対する変更を抑制し、クリーン画像での過補正を緩和できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。