Skip to main content
QUICK REVIEW

[論文レビュー] MagNet: a Two-Pronged Defense against Adversarial Examples

Dongyu Meng, Hao Chen|arXiv (Cornell University)|May 25, 2017
Adversarial Robustness in Machine Learning参考文献 23被引用数 218
ひとこと要約

MagNetはターゲット分類器を変更することなく、検出器を用いて敵対的入力を拒否し、データ多様体へ敵対的例を写像するリフォーマーを用いることで神経ネットワークを防御し、graybox攻撃に耐える多様性を備える。

ABSTRACT

Deep learning has shown promising results on hard perceptual problems in recent years. However, deep learning systems are found to be vulnerable to small adversarial perturbations that are nearly imperceptible to human. Such specially crafted perturbations cause deep learning systems to output incorrect decisions, with potentially disastrous consequences. These vulnerabilities hinder the deployment of deep learning systems where safety or security is important. Attempts to secure deep learning systems either target specific attacks or have been shown to be ineffective. In this paper, we propose MagNet, a framework for defending neural network classifiers against adversarial examples. MagNet does not modify the protected classifier or know the process for generating adversarial examples. MagNet includes one or more separate detector networks and a reformer network. Different from previous work, MagNet learns to differentiate between normal and adversarial examples by approximating the manifold of normal examples. Since it does not rely on any process for generating adversarial examples, it has substantial generalization power. Moreover, MagNet reconstructs adversarial examples by moving them towards the manifold, which is effective for helping classify adversarial examples with small perturbation correctly. We discuss the intrinsic difficulty in defending against whitebox attack and propose a mechanism to defend against graybox attack. Inspired by the use of randomness in cryptography, we propose to use diversity to strengthen MagNet. We show empirically that MagNet is effective against most advanced state-of-the-art attacks in blackbox and graybox scenarios while keeping false positive rate on normal examples very low.

研究の動機と目的

  • 防御の目的と評価指標を定義する。
  • ターゲット分類器を変更せず、攻撃プロセスに依存しない防御フレームワークを提案する。
  • データ多様体に基づく検出器とオートエンコーダを用いて敵対的入力を拒否またはリフォーマーする。
  • graybox攻撃に対する多様性を活用して、適応的な攻撃者に対するロバスト性を向上させる。

提案手法

  • オートエンコーダ再構成誤差を用いてデータ多様体への距離を推定する1つ以上の検出器を導入する。
  • 元入力とオートエンコーダ再形成入力に対する分類器の出力の間のJensen-Shannonダイバージェンスに基づく2番目の検出器を使用する。
  • リフォーマー(オートエンコーダ)を訓練して敵対的例を多様体へ写像させ、正しく分類されるようにする。
  • ランタイム時に複数の多様なオートエンコーダの中からランダムに選択してgraybox脅威モデルに対抗する。
  • 訓練時に敵対的例に依存せず、任意の生成プロセスに対して防御を行う。

実験結果

リサーチクエスチョン

  • RQ1ターゲット分類器を変更せず robustに複数の攻撃手法に対して敵対的入力を検出・リフォーマーできる防御は可能か。
  • RQ2再構成誤差に基づくデータ多様体検出と分類器出力の発散を補完的な検出としてどれほど効果的か。
  • RQ3オートエンコーダベースの防御における多様性は、偽陽性を増やさずgraybox攻撃に対する回復力を向上させるか。

主な発見

  • 検出器-リフォーマーの枠組みは、保護対象の分類器を変更せずに複数の既知攻撃に対してロバスト性を向上させる。
  • リフォーマー(オートエンコーダ)は敵対的例を正常データの多様体へ移動させ、正しい分類を助ける。
  • 2つの検出器(再構成誤差ベースと確率発散ベース)は、攻撃タイプを超えて補完し合う。
  • 防御の多様性(複数のオートエンコーダの中からランダムに選択する)によりgraybox脅威への耐性が強化される。
  • 防御はgraybox設定でも有効であり、攻撃者が普遍的な敵対的入力を作成するのを難しくする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。