QUICK REVIEW

[論文レビュー] On the Effectiveness of Defensive Distillation

Nicolas Papernot, Patrick McDaniel|arXiv (Cornell University)|Jul 18, 2016

Adversarial Robustness in Machine Learning参考文献 7被引用数 58

ひとこと要約

この論文は、敵対的例に対する防御蒸留の有効性を評価し、ジャコビアンに基づく反復的攻撃に加えて、高速勾配符号法（FGSM）に対しても有効であることを示している。高温T=100で学習された蒸留ニューラルネットワークを用い、ソフトラベルで再学習することで、FGSM攻撃の成功率を1.5%未満に低下させ、複数の攻撃タイプにわたり高い耐性を示している。

ABSTRACT

We report experimental results indicating that defensive distillation successfully mitigates adversarial samples crafted using the fast gradient sign method, in addition to those crafted using the Jacobian-based iterative attack on which the defense mechanism was originally evaluated.

研究の動機と目的

防御蒸留が元々ジャコビアンに基づく反復的攻撃に対して評価されていたが、高速勾配符号法（FGSM）を用いて生成された敵対的例に対しても有効であるかを評価すること。
防御蒸留における温度スケーリングの影響が、FGSM攻撃に対する深層ニューラルネットワークの耐性に与える影響を調査すること。
元の防御蒸留論文の評価を補完する実験結果を提供し、より広範な敵対的攻撃のクラスにまで評価を拡張すること。
蒸留モデルが、FGSMによって生成された敵対的例に対する脆弱性を顕著に低減しつつ、高いクリーン精度を維持できるかを特定すること。

提案手法

MNISTに対して標準的な交差エントロピー損失とハードラベル（ワンホットエンコードされたクラスラベル）を用いてベースの深層ニューラルネットワークを学習する。
ベースネットワークのソフトマックス層に高い温度T > 1を適用し、各訓練サンプルについてクラスごとのソフト確率分布を生成する。
ベースネットワークのソフトラベル予測結果を、同じ入力データ上で学習される第二の蒸留ニューラルネットワークの新しい訓練ラベルとして使用する。
蒸留ネットワークを同じ高い温度Tで学習し、推論時にはT=1に設定して自信のあるハード予測を出力する。
各テストサンプルに対して、ε=0.3で高速勾配符号法（FGSM）を適用し、敵対的例を生成し、蒸留モデルおよびベースラインモデルにおける成功率を評価する。
温度Tを1から100にまで系統的に変化させ、蒸留モデルにおけるFGSM攻撃の成功率を測定する。

実験結果

リサーチクエスチョン

RQ1防御蒸留は、MNISTデータセット上で高速勾配符号法（FGSM）によって生成された敵対的例の成功率を効果的に低減するのか？
RQ2防御蒸留における温度パラメータTが、FGSM攻撃に対するモデルの耐性に与える影響は何か？
RQ3元々ジャコビアンに基づく反復的攻撃に対して検証された防御蒸留は、FGSMのような他の敵対的攻撃手法に対しても一般化可能か？
RQ4蒸留モデルは、FGSMによって生成された敵対的例に対する脆弱性を顕著に低減しつつ、高いクリーン精度を維持できるか？

主な発見

防御蒸留を行わないベースラインモデルは、テスト精度99.51%を達成し、ε=0.3のときFGSM攻撃の成功率が88.03%に達した。
温度T=100のとき、防御蒸留によりMNISTデータセット上でのFGSM攻撃成功率が1.5%未満に低下した。
防御蒸留における温度Tの上昇に伴い、FGSM攻撃の成功率は単調に減少し、耐性の向上が示された。
防御蒸留は、高速勾配符号法とジャコビアンに基づく反復的攻撃の両方に対して敵対的例を効果的に緩和し、広範なスケールの防御能力を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。