Skip to main content
QUICK REVIEW

[論文レビュー] Improving the Adversarial Robustness and Interpretability of Deep Neural Networks by Regularizing their Input Gradients

Andrew Slavin Ross, Finale Doshi‐Velez|arXiv (Cornell University)|Nov 26, 2017
Adversarial Robustness in Machine Learning被引用数 280
ひとこと要約

本論文は訓練中の入力勾配正則化を導入し、DNNを敵対的摂動に対してより頑健かつ解釈可能にする。勾配正規化モデルは転移攻撃に耐性を示し、より正当で人間が認識する説明をもたらす。

ABSTRACT

Deep neural networks have proven remarkably effective at solving many classification problems, but have been criticized recently for two major weaknesses: the reasons behind their predictions are uninterpretable, and the predictions themselves can often be fooled by small adversarial perturbations. These problems pose major obstacles for the adoption of neural networks in domains that require security or transparency. In this work, we evaluate the effectiveness of defenses that differentiably penalize the degree to which small changes in inputs can alter model predictions. Across multiple attacks, architectures, defenses, and datasets, we find that neural networks trained with this input gradient regularization exhibit robustness to transferred adversarial examples generated to fool all of the other models. We also find that adversarial examples generated to fool gradient-regularized models fool all other models equally well, and actually lead to more "legitimate," interpretable misclassifications as rated by people (which we confirm in a human subject experiment). Finally, we demonstrate that regularizing input gradients makes them more naturally interpretable as rationales for model predictions. We conclude by discussing this relationship between interpretability and robustness in deep neural networks.

研究の動機と目的

  • DNNにおける二つの問題点、解釈性の欠如と小さな敵対的摂動に対する脆弱性を動機づけ、対処する。
  • 訓練中により滑らかな入力勾配を強制する微分可能な正則化を提案する。
  • 複数の攻撃とデータセットに対して勾配正規化モデルの頑健性と解釈性を評価する。

提案手法

  • 損失の入力勾配の二乗ノルムをペナルティ化して勾配正則化を定式化する: minimize H(y, ŷ) + λ ||∇ₓ H(y, ŷ)||₂²。
  • 勾配正規化と防御的蒸留および FGSM、TGSM、JSMA 攻撃を用いた敵対的訓練を比較する。
  • MNIST、SVHN、notMNIST 上で Adam と特定のハイパーパラメータを用いてCNNを訓練する;λ 値と訓練時間の影響を探索する。
  • 頑健性と解釈性を理解するために入力勾配とモデル信頼度の分布を分析する。
  • さまざまな防御に対して敵対的誤分類を生み出す人間被験者研究を実施し、現実性を評価する。

実験結果

リサーチクエスチョン

  • RQ1入力勾配正規化は、他モデルからの転移を含む敵対的例に対して頑健性を高めるか。
  • RQ2勾配正規化は敵対的摂動の解釈性とモデルの説明にどのように影響するか。
  • RQ3勾配正規化モデルは敵対的訓練と組み合わせて頑健性を高めることができるか。
  • RQ4白箱・黒箱攻撃の下で、勾配正規化モデルは蒸留および敵対的訓練とどのように比較されるか。

主な発見

  • 勾配正規化モデルは MNIST、SVHN、notMNIST の転移 FGSM 攻撃に対して強い頑健性を示し、より高い摂動レベルで他の防御を上回ることが多い。
  • 勾配正規化モデルを対象とした攻撃は他のモデルを同様に誤らせる傾向があり、標準的な防御とは異なる頑健性/転移ダイナミクスを示唆する。
  • 防御的蒸留は勾配消失のため他モデルを欺けないことが多い一方、勾配正規化は頑健な挙動を維持する。
  • 勾配正規化と敵対的訓練を組み合わせると SVHN で最大の頑健性を示し、FGSM では小さなラベル漏えい効果がある。
  • 人間の被験者実験は、勾配正規化モデルの敵対的例がより妥当なターゲットになりやすいことを示し、敵対的摂動の解釈可能性が改善されることを示唆する。
  • 可視化は、勾配正規化が通常モデルや蒸留モデルと比べて滑らかで人間に解釈しやすい入力勾配を生み出すことを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。