QUICK REVIEW

[論文レビュー] Explaining Black Box Predictions and Unveiling Data Artifacts through Influence Functions

Xiaochuang Han, Byron Wallace|arXiv (Cornell University)|May 14, 2020

Explainable Artificial Intelligence (XAI)参考文献 37被引用数 19

ひとこと要約

本稿では、自然言語推論（NLI）のような複雑な推論タスクにおいて、勾配ベースのサリエンシー・マップとは補完的であるように、影響関数をブラックボックスNLPモデルを解釈する手法として提案している。影響関数がNLIにおけるモデル意思決定の説明においてサリエンシー・マップを上回ることを示し、影響スコアを用いてトレーニングデータ内のデータアーチファクトを検出するための新しい定量的指標を導入している。

ABSTRACT

Modern deep learning models for NLP are notoriously opaque. This has motivated the development of methods for interpreting such models, e.g., via gradient-based saliency maps or the visualization of attention weights. Such approaches aim to provide explanations for a particular model prediction by highlighting important words in the corresponding input text. While this might be useful for tasks where decisions are explicitly influenced by individual tokens in the input, we suspect that such highlighting is not suitable for tasks where model decisions should be driven by more complex reasoning. In this work, we investigate the use of influence functions for NLP, providing an alternative approach to interpreting neural text classifiers. Influence functions explain the decisions of a model by identifying influential training examples. Despite the promise of this approach, influence functions have not yet been extensively evaluated in the context of NLP, a gap addressed by this work. We conduct a comparison between influence functions and common word-saliency methods on representative tasks. As suspected, we find that influence functions are particularly useful for natural language inference, a task in which 'saliency maps' may not have clear interpretation. Furthermore, we develop a new quantitative measure based on influence functions that can reveal artifacts in training data.

研究の動機と目的

BERTのような深層トランスフォーマーに基づくモデルの予測を解釈する際、影響関数の信頼性を評価すること。
さまざまなNLPタスクにおいて、影響関数と勾配ベースのサリエンシー・マップを比較し、予測の説明を検証すること。
影響関数が、特にNLIにおいて、トレーニングデータ内のデータアーチファクトの検出とその影響の定量化に有効であるかどうかを調査すること。
影響関数を用いて、仮定されたデータアーチファクトがモデルの予測に与える影響を測定する新しい定量的手法を提案すること。
複雑な意味的タスクにおいて、入力レベルのサリエンシー手法と比較して、影響関数がより忠実で意味のある説明を提供するかどうかを評価すること。

提案手法

モデルアーキテクチャを変更せずに、BERTベースの分類器に特化した影響関数フレームワーク（Koh & Liang, 2017）を適応すること。
各トレーニング例がテスト予測に与える影響を、ヘッシアンに基づく近似を用いて計算し、効率的に影響スコアを算出すること。
各トレーニング例の影響スコアを順位付けすることで、特定の予測に最も影響を与えたトレーニングインスタンスを同定すること。
センチメント分析およびNLIタスクにおいて、影響ベースの説明と勾配×入力などの勾配ベースのサリエンシー・マップを比較すること。
影響スコアに基づく新しい定量的指標を開発し、データアーチファクト（例：語彙的キーワード）がモデル予測に与える影響の程度を評価すること。
診断用データセット（例：McCoy et al., 2019）を用いて、影響スコアとモデルがアーチファクトに依存する程度の相関関係を評価すること。

実験結果

リサーチクエスチョン

RQ1BERTのような深層トランスフォーマーに基づくモデルの予測を解釈する際、影響関数の近似が信頼的に使用可能であるか。
RQ2さまざまなNLPタスクにおいて、影響関数に基づく説明と勾配ベースのサリエンシー・マップの整合性はどの程度か。
RQ3影響関数が、トレーニングデータ内のデータアーチファクトがモデル予測に与える影響をどの程度明らかに・定量化できるか。
RQ4自然言語推論のような複雑な推論タスクにおいて、入力レベルのサリエンシー手法と比較して、影響関数がより忠実な説明手法として機能するか。
RQ5影響関数をどのように体系的に用いて、NLPデータセット内のデータアーチファクトを検出・分析できるか。

主な発見

影響関数の近似は、計算コストが高めではあるが、BERTベースのモデルにおける予測解釈において信頼性があり効果的である。
センチメント分析では、影響関数と勾配ベースのサリエンシー・マップが、重要な入力トークンを強く一致して特定している。
自然言語推論（NLI）では、影響関数とサリエンシー・マップの結果が顕著に乖離しており、影響関数がより意味的で文脈に整合した説明を提供している。
影響関数は、特定の語がラベルと相関するような語彙的キーワードやアーチファクトを含むトレーニング例を特に効果的に同定している。
提案された影響関数に基づく定量的指標は、NLIデータセットにおける「entailment」や「contradiction」などの特定語の存在といったデータアーチファクトの影響を、うまく検出・定量化している。
影響関数は、モデルがしばしば前提や仮説に特定の語が存在するといった表面的なパターンに依存しているが、より深い意味的推論に依存していないことを明らかにしている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。