Skip to main content
QUICK REVIEW

[論文レビュー] Defensive Distillation is Not Robust to Adversarial Examples

Nicholas Carlini, David Wagner|arXiv (Cornell University)|Jul 14, 2016
Adversarial Robustness in Machine Learning参考文献 4被引用数 237
ひとこと要約

本論文は、防御的蒸留が adversarial examples に対する頑健性を提供しないことを示す。小さな攻撃の変更により、defensively distilled networks で標的誤分類が成功する(MNIST における 4.7% のピクセル変更で 96.4%)。

ABSTRACT

We show that defensive distillation is not secure: it is no more resistant to targeted misclassification attacks than unprotected neural networks.

研究の動機と目的

  • Defensive distillation が敵対的サンプルに対して本当に頑健性を高めるかを評価する。
  • 既存の敵対的攻撃が defensively distilled models とどのように相互作用するかを分析する。
  • Papernot’s L0 attack に対する distilled ネットワークへの効果的な修正を実証する。
  • Distillation を用いた MNIST での攻撃成功率とピクセル変更要件を定量化する。

提案手法

  • TensorFlow を用いて MNIST 上で 9-layer network による defensive distillation を再実装する。
  • Papernot’s L0 adversarial attack を適用し、 distilled と baseline ネットワークでの挙動を分析する。
  • distilled モデルでのロジットの大きさの増加を考慮して攻撃を修正するため、softmax 入力を T によって再スケーリングする。
  • 勾配ベースのピクセル選択をロジットではなくネットワーク出力上で動作するように調整する。
  • T=100 に対する攻撃成功率と平均ピクセル変更数を評価し、非 distillation ベースラインと比較する。

実験結果

リサーチクエスチョン

  • RQ1Defensive distillation は targeted adversarial attacks の成功率を低下させるか。
  • RQ2攻撃の小さな修正で defensive distillation のような防御を打ち破ることができるか。
  • RQ3 distilled なネットワークと標準ネットワークで必要なピクセル変更数はどのように異なるか。
  • RQ4温度 T が distilled ネットワークに対する攻撃の有効性に与える影響は何か。

主な発見

  • Defensive distillation は以前の攻撃の見かけ上の有効性を低下させるが、修正された攻撃には頑健ではない。
  • T=100 において、修正された攻撃は distilled ネットワークで 96.4% の標的誤分類を達成する。
  • distilled ネットワークでは、成功させるには平均 36.4 ピクセル(4.7%)の変更が必要で、非 distilled のベースラインでは 45 ピクセル(約 5.86%)である。
  • 適応させた攻撃が、ネットワークの実際の出力を正しくスケーリングしたうえで用いられる場合、温度 1 から 100 までのすべての温度で defensive distillation を打破する。
  • 未保護のネットワークと比較して、強力なテスト攻撃下で蒸留モデルは有意な頑健性の向上を示さない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。