QUICK REVIEW

[論文レビュー] Gradients of Counterfactuals

Mukund Sundararajan, Ankur Taly|arXiv (Cornell University)|Nov 8, 2016

Explainable Artificial Intelligence (XAI)参考文献 12被引用数 79

ひとこと要約

この論文では、元の入力をスケーリングして得られる反事後入力の勾配を計算することで、深層ニューラルネットワークにおける特徴の重要度の割り当てを改善するための Interior Gradients を導入する。標準勾配とは異なり、ネットワークの飽和によって勾配が消えるのを防ぎ、意味のある特徴寄与度をよりよく捉え、正確に予測スコアに合計される。これにより、アーキテクチャの変更なしに信頼性が高く、容易に実装可能な解釈性が可能になる。

ABSTRACT

Gradients have been used to quantify feature importance in machine learning models. Unfortunately, in nonlinear deep networks, not only individual neurons but also the whole network can saturate, and as a result an important input feature can have a tiny gradient. We study various networks, and observe that this phenomena is indeed widespread, across many inputs. We propose to examine interior gradients, which are gradients of counterfactual inputs constructed by scaling down the original input. We apply our method to the GoogleNet architecture for object recognition in images, as well as a ligand-based virtual screening network with categorical features and an LSTM based language model for the Penn Treebank dataset. We visualize how interior gradients better capture feature importance. Furthermore, interior gradients are applicable to a wide variety of deep networks, and have the attribution property that the feature importance scores sum to the the prediction score. Best of all, interior gradients can be computed just as easily as gradients. In contrast, previous methods are complex to implement, which hinders practical adoption.

研究の動機と目的

ネットワークの飽和により重要な特徴が近似的にゼロ勾配となるという、標準勾配の限界を解消すること。
ネットワークの装備や複雑な変更なしに、実装が簡単な特徴の重要度を算出する手法を開発すること。
特徴の重要度スコアが正確にモデルの予測スコアに合致すること、すなわち帰属性の性質を満たすこと。
深層学習モデルの実用的で直感的な解釈を、アーキテクチャの深い知識がなくても実務家が行えるようにすること。

提案手法

入力の各特徴をスカラー α ∈ [0,1] でスケーリングした、反事後入力を用いて、モデル出力に対する勾配を計算する。
Interior Gradients を、原点から元の入力までの経路に沿って α = 1 における入力に関するモデル出力の勾配として定義する。
ゼロ入力から元の入力までの補間経路に沿った勾配の経路積分を用いて、よりロバストで一貫性のある帰属割り当てを計算する。
さまざまなアーキテクチャに適用する：画像分類の Inception、カテゴリカル特徴を有するリガンドベースのバーチャルスクリーニングネットワーク、言語モデリングの LSTM。
特徴の重要度に応じて元の画像のピクセル強度をスケーリングし、より直感的なサリエンシーマップを生成する。
すべての特徴の重要度スコアの合計が、モデルの出力予測スコアに正確に一致することを保証する。

実験結果

リサーチクエスチョン

RQ1ネットワークが飽和している場合、標準勾配は深層ネットワークにおける特徴の重要度を信頼性を持って反映できるか？
RQ2ネットワークアーキテクチャの変更や複雑な装備なしに、特徴の重要度をどのように計算できるか？
RQ3単純な勾配ベースの手法が、正確にモデルの予測スコアに合致する帰属スコアを生成できるか？
RQ4提案手法は、多様な深層学習モデルにおいてより直感的で一貫性のあるサリエンシーマップを生成するか？

主な発見

標準勾配は、反射式一眼レフカメラの画像において、カメラ本体という関連する特徴を正しく強調できないことがあり、代わりに画像の左上など無関係な領域に高い重要度を割り当てる。
無関係な画像領域を除去した後も、モデルの予測スコアはほとんど変化せず（例：0.9938 から 0.9966 に）、高値の勾配が実際の特徴の重要度に対応していないことを確認した。
Interior Gradients は、カメラ本体と関連する文脈を正しく強調する、より直感的なサリエンシーマップを生成し、人間の認知と一致する。
リガンドベースのバーチャルスクリーニングネットワークでは、標準勾配が飽和のために失敗する中で、Interior Gradients は、化学的環境が異なる原子に対して正しく重要度を割り当てた。
LSTM 言語モデルでは、Interior Gradients は 'more' が次の単語 'than' を予測するのに寄与していることを正しく特定したが、標準勾配はほぼゼロで、直感的でない帰属割り当てを示した。
すべての特徴の Interior Gradient スコアの合計は、モデルの出力予測スコアに非常に近い（例：'than' について 0.5322 対 0.5307）ことから、帰属性の性質が満たされている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。