[論文レビュー] Interpretation of Neural Networks is Fragile
論文はニューラルネットワークの解釈(saliency maps と example-based explanations)の多くの解釈手法とデータセットにおいて、予測ラベルを変えずに perceptually indistinguishable な小さな入力摂動によって大きく変更され得ることを示している。
In order for machine learning to be deployed and trusted in many applications, it is crucial to be able to reliably explain why the machine learning algorithm makes certain predictions. For example, if an algorithm classifies a given pathology image to be a malignant tumor, then the doctor may need to know which parts of the image led the algorithm to this classification. How to interpret black-box predictors is thus an important and active area of research. A fundamental question is: how much can we trust the interpretation itself? In this paper, we show that interpretation of deep learning predictions is extremely fragile in the following sense: two perceptively indistinguishable inputs with the same predicted label can be assigned very different interpretations. We systematically characterize the fragility of several widely-used feature-importance interpretation methods (saliency maps, relevance propagation, and DeepLIFT) on ImageNet and CIFAR-10. Our experiments show that even small random perturbation can change the feature importance and new systematic perturbations can lead to dramatically different interpretations without changing the label. We extend these results to show that interpretations based on exemplars (e.g. influence functions) are similarly fragile. Our analysis of the geometry of the Hessian matrix gives insight on why fragility could be a fundamental challenge to the current interpretation approaches.
研究の動機と目的
- モデルの解釈に対する信頼を動機づけ、ロバスト性を定量化する。
- 予測を保持しつつ解釈を変更する adversarial perturbations を導入する。
- ImageNet と CIFAR-10 で特徴重要性と exemplar-based interpretations のロバスト性を系統的に評価する。
- 高次元非線形モデルにおける解釈の脆弱性が生じる理由について理論的および実証的洞察を提供する。
提案手法
- 固定された予測のもとで解釈の不一致を最大化する adversarial perturbations を定義する。
- three strategies (top-k, mass-center, targeted) と逐次最適化手順を用いて feature-importance methods(simple gradients, DeepLIFT, integrated gradients)を攻撃する。
- gradient sign methods を用いて influence functions(training-example based explanations)を攻撃する。
- ImageNet (SqueezeNet) と CIFAR-10 (custom CNN) で攻撃を評価し、top-1000 intersection と Spearman rank correlation で頑健性を評価する。
- 高次元性と非線形性が解釈の脆弱性を促進する理由を説明するために Hessian-based analysis を用いる。)
- 用語・スタイルは原文のまま保持し、日本語訳は自然な表現に留める。
実験結果
リサーチクエスチョン
- RQ1モデルの予測を変えずに小さな入力摂動が顕著性マップや influence functions のような解釈を意味的に変えることができるか。
- RQ2最も adversarial perturbations に脆弱なのはどの解釈手法か。
- RQ3解釈のロバスト性はモデルの Hessian 幾何学とどのように関連するか。
- RQ4予測を変えずに解釈をだませる摂動はデータセット(ImageNet, CIFAR-10)やアーキテクチャ間で一般化するか。
主な発見
- Feature-importance maps (gradients, DeepLIFT, integrated gradients) can be driven to substantial changes with perceptually indistinguishable perturbations while preserving the original label.
- Top-k と mass-center の攻撃は、3 つの feature-importance method 全てにおいて top-1000 intersection と rank correlation の劣化に対して同様に効果的で、ランダム符号摂動よりも優れている。
- Integrated gradients は勾配や DeepLIFT より adversarial interpretation attacks に対して比較的頑健である。
- Influence-function explanations も摂動に対して高感度で、勾配符号攻撃の下で最も影響力のある訓練例が劇的に変化する。
- attacks は解釈を意味論的に再配向することが可能(例: saliency を非顕著領域へ移動、意味的に関連しない exemplar へ誘導)であり、予測を変えずに済む。
- Hessian-based analysis は高次元性と非線形性が解釈の脆弱性の根幹にあることを示唆し、解釈の脆弱性と予測摂動の直交性を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。