[論文レビュー] Attention is not Explanation
この論文は、標準のアテンション重みがNLPタスク全体でモデル予測の忠実な説明を提供することはまれであることを示しており、反事実アテンションは同じ出力を得られることがあり、勾配/leave-one-out特徴重要度との相関は弱く、特にBiLSTMエンコーダで顕著である。
Attention mechanisms have seen wide adoption in neural NLP models. In addition to improving predictive performance, these are often touted as affording transparency: models equipped with attention provide a distribution over attended-to input units, and this is often presented (at least implicitly) as communicating the relative importance of inputs. However, it is unclear what relationship exists between attention weights and model outputs. In this work, we perform extensive experiments across a variety of NLP tasks that aim to assess the degree to which attention weights provide meaningful `explanations' for predictions. We find that they largely do not. For example, learned attention weights are frequently uncorrelated with gradient-based measures of feature importance, and one can identify very different attention distributions that nonetheless yield equivalent predictions. Our findings show that standard attention modules do not provide meaningful explanations and should not be treated as though they do. Code for all experiments is available at https://github.com/successar/AttentionExplanation.
研究の動機と目的
- NLPタスク全体で、アテンション重みに対する勾配とleave-one-outを含む特徴重要度指標との相関を評価する。
- 代替的な(counterfactual/adversarial)アテンションパターンが予測を変えるかを評価する。
- BiLSTMエンコーダにおける標準的なアテンション機構の解釈可能性を、より単純なエンコーダと比較して検討する。
- 置換(permutation)と敵対的アテンション分析を通じた、アテンションベースの説明の頑健性を探る。
提案手法
- モデルアーキテクチャには、加法的またはスケールド・ドット-productアテンションを備えたBiLSTMエンコーダと、対照としての単純なフィードフォワード(平均)埋め込みを含む。
- アテンション重みと特徴重要度の相関を、勾配を用いた Kendall の τg および leave-one-out の τloo で定量化する。
- アテンション重みを置換して出力変化をTotal Variation Distance (TVD) で測定することにより、反事実説明を評価する。
- 観測アテンションとの非類似性を最大化する対抗的アテンション分布を正式に探索する(Jensen-Shannon距離)一方、予測をϵ閾値内に維持する。
- 多様なNLPタスク/データセットで評価する: SST, IMDB, ADR Tweets, 20 Newsgroups, AG News, Diabetes/Anemia (MIMIC), CNN QA, bAbI, SNLI。
実験結果
リサーチクエスチョン
- RQ11. 学習されたアテンション重みは、各タスクで勾配ベースの特徴重要度とleave-one-out指標と相関するのか。
- RQ22. 代替的なアテンション構成( counterfactual/adversarial )は異なる予測を生み出すのか、すなわちアテンションマップは信頼できる説明なのか。
- RQ33. BiLSTMエンコーダとより単純な平均エンコーダの間で、アテンションと特徴重要度の相関はどう異なるか。
- RQ44. QA/NLIタスクおよび長文で、アテンションベースの説明はより信頼できるのか。
主な発見
- アテンション重みは、勾配ベースの特徴重要度(τg)および leave-one-out(τloo)との相関がデータセットを跨いで弱く一貫性がないことを示す。
- 敵対的アテンション分布は元のアテンションと本質的に同じ予測を生み出すことがあり、アテンションのみに基づく説明が誤解を招く可能性を示す。
- アテンション重みをランダムに置換しても出力への影響は最小になることが多く、特にBiLSTMエンコーダでは予測を厳密には拘束していないことを示唆している。
- フィードフォワード(平均)エンコーダは、アテンションと特徴重要度指標の整合性がBiLSTMアテンションより強い。
- 長文データセット(例:MIMICタスク)では相関がより顕著だが依然として弱く、データ点が多いことでより明確な相関が得られる可能性がある。
- 全体として、アテンション機構は予測性能を向上させるが、モデル決定の意味ある説明を信頼性高く提供するものではない。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。