QUICK REVIEW

[論文レビュー] Pathologies of Neural Models Make Interpretations Difficult

Shi Feng, Edward W. Wallace|arXiv (Cornell University)|Apr 20, 2018

Explainable Artificial Intelligence (XAI)参考文献 39被引用数 26

ひとこと要約

この論文は、入力の短縮処理においてニューラルモデルが病理的行動を示すことを明らかにした。入力の短縮処理により、人間がランダムに見える意味のない最小限の入力に対しても、モデルは高い自信を持つ。勾配に基づく入力短縮とビームサーチを用いることで、著者たちはモデルの過信と不適切な不確実性のキャリブレーションを露呈し、精度を損なわずに解釈可能性を向上させるためにエントロピー正則化を提案した。

ABSTRACT

One way to interpret neural model predictions is to highlight the most important input features---for example, a heatmap visualization over the words in an input sentence. In existing interpretation methods for NLP, a word's importance is determined by either input perturbation---measuring the decrease in model confidence when that word is removed---or by the gradient with respect to that word. To understand the limitations of these methods, we use input reduction, which iteratively removes the least important word from the input. This exposes pathological behaviors of neural models: the remaining words appear nonsensical to humans and are not the ones determined as important by interpretation methods. As we confirm with human experiments, the reduced examples lack information to support the prediction of any label, but models still make the same predictions with high confidence. To explain these counterintuitive results, we draw connections to adversarial examples and confidence calibration: pathological behaviors reveal difficulties in interpreting neural models trained with maximum likelihood. To mitigate their deficiencies, we fine-tune the models by encouraging high entropy outputs on reduced examples. Fine-tuned models become more interpretable under input reduction without accuracy loss on regular examples.

研究の動機と目的

入力の摂動と勾配による帰属割り当てに基づく解釈手法が、入力短縮処理の下で意味のある説明を生まない理由を調査すること。
意味的に整合性のない入力に対しても予測の自信が保たれるニューラルモデルの病理的行動を暴露すること。
これらの病理的行動の根本的原因、特にモデルの過信と不適切なキャリブレーションを理解すること。
標準的なタスクにおける精度を損なわずに解釈可能性を向上させる、エントロピー正則化という緩和戦略を提案すること。

提案手法

入力短縮処理は、勾配に基づく重要度スコアによって最小重要度の語を繰り返し削除することで実施され、モデルの元の予測を維持する。
ビームサーチを用いて複数の短縮経路を探索し、予測の信頼性を維持する最短の入力を見つける。
各語の重要度は、語の削除に対するモデルの信頼度の勾配によって計算される：g(xi|x) = f(y|x) − f(y|x−i)。
人間による評価はクラウドソーシングを用いて実施され、短縮された入力とランダムに並び替えた語の列を比較し、認識される整合性を評価する。
微調整中にエントロピー正則化を適用し、短縮された入力に対して高いモデルの不確実性を促進することで、過信を是正する。
本手法は、SQuAD（読解）、SNLI（テキスト同値関係）、VQA（視覚的質問応答）という3つのNLPタスクで評価された。

実験結果

リサーチクエスチョン

RQ1入力摂動と勾配に基づく解釈手法が、短縮された入力に適用された際に、なぜ意味のある説明を生まないのか？
RQ2繰り返し語を削除した後、人間にとって意味のない入力に対してもニューラルモデルがなぜ高い自信を保つのか？
RQ3これらの病理的行動は、敵対的例や純粋なノイズからの「ごみ」入力とどのように関連しているのか？
RQ4正則化によってモデルの不確実性を向上させることで、解釈の堅牢性を高められるか？
RQ5エントロピー正則化は、標準的な精度を維持したまま、解釈可能性をどの程度向上させるのか？

主な発見

勾配に基づく重要度を用いた入力短縮処理により、入力は1〜2語にまで短縮されるが、人間にとっては意味のないものであり、モデルの信頼度は高いまま維持される。
人間による評価では、短縮された入力とランダムに並び替えた語の列はほとんど区別がつかず、任意に見え、整合性がないと判断された。
元の文脈が大きく変化しても、モデルはこれらの短縮された入力に対して依然として高い自信を持つため、劣化した入力に対する過信が示された。
この病理的行動は、モデルの過信と不適切なキャリブレーションに起因し、敵対的例や純粋なノイズからの「ごみ」入力と類似している。
微調整中にエントロピー正則化を適用することで、短縮された入力に対する過信が軽減され、精度を損なわずにより解釈可能で整合性のある短縮例が得られた。
本手法はSQuAD、SNLI、VQAの全タスクで病理的行動を効果的に緩和し、モデルの挙動と人間の解釈可能性の整合性が向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。