Skip to main content
QUICK REVIEW

[論文レビュー] Extending Defensive Distillation

Nicolas Papernot, Patrick McDaniel|arXiv (Cornell University)|May 15, 2017
Adversarial Robustness in Machine Learning参考文献 19被引用数 84
ひとこと要約

本論文は、 dropout ベースの不確実性と外れ値クラスを用いる拡張 Defensive Distillation アプローチを提案し、ホワイトボックスおよびブラックボックス攻撃に対する頑健性を向上させる。

ABSTRACT

Machine learning is vulnerable to adversarial examples: inputs carefully modified to force misclassification. Designing defenses against such inputs remains largely an open problem. In this work, we revisit defensive distillation---which is one of the mechanisms proposed to mitigate adversarial examples---to address its limitations. We view our results not only as an effective way of addressing some of the recently discovered attacks but also as reinforcing the importance of improved training techniques.

研究の動機と目的

  • 機械学習における敵対的サンプルに対する頑健な防御の必要性を動機づける。
  • 勾配マスキングと転移性の問題を解決するために defensive distillation を拡張する。
  • 蒸留モデルの訓練時に不確実性を考慮したラベリングと外れ値クラスを導入する。
  • MNIST を用いた white-box および black-box 攻撃シナリオで頑健性を評価する。
  • 正確さ、偽陽性、敵対的例の検出/回復とのトレードオフを評価する。

提案手法

  • 標準データと元のラベルで最初のモデル f を訓練し、その予測を用いて二番目のモデル f^d をラベル付けする。
  • 蒸留モデルのソフトマックス温度 T=1 を維持し、出力を外れ値クラスで拡張する。
  • ドロップアウトベースの複数の確率的前方伝搬を用いて f の予測不確実性を定量化し、ロジットの平均と分散を得る。
  • 正解クラスの確率と正規化された不確実性を結合して外れ値クラスへ確率質量を割り当てる新しいラベリングベクトル k(x) を定義する。
  • 新しいラベリングベクトルで f^d を訓練し、正解クラスと他のクラスの不一致をペナルティする補助損失項を含め、不確実性処理を強化する。
  • 入力前に dropout を 0.2、畳み込み後に 0.5 に設定した MNIST で FGM、JSMA、AdaDelta の white-box および black-box 攻撃に対して頑健性を評価する。

実験結果

リサーチクエスチョン

  • RQ1拡張防御蒸留は元の防御蒸留と比較して勾配ベースおよび転移性攻撃に対する感受性を低減するか?
  • RQ2不確実性を考慮したラベリングと外れ値クラスは正当な入力の精度を保ちつつ敵対的例の検出と回復を改善できるか?
  • RQ3勾配マスキングに依存せず、 white-box および black-box の脅威モデルの下で頑健性が維持されるか?
  • RQ4α(不確実性ウェイト)、ドロップアウトのパス数 N、クリーンデータと敵対的例でのモデル性能とのトレードオフは何か?

主な発見

  • 蒸留モデルは正当な入力に対して 97.28% の精度を達成した。対して無防御のベースラインは 98.41% であった。
  • 偽陽性は 1% 未満にとどまった。
  • 未防御のモデルは敵対的入力に対して高い誤分類率を示した (FGM 90.8%、JSMA 92.2%、AdaDelta 96.0%)。
  • 拡張防御はテスト点の近傍で white-box 攻撃に対する頑健性を改善し、ブラックボックス頑健性を同等程度維持し、勾配マスキングの懸念を緩和する。
  • α を増やすと敵対的例の検出/回復が向上するが、正当な入力の偽陽性が増える可能性がある。
  • 複数のドロップアウトパス(約20)を用いた不確実性推定により頑健性指標の収束を得られる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。