[論文レビュー] Can I Trust the Explainer? Verifying Post-hoc Explanatory Methods
tldr: この論文は特徴量の追加説明と特徴選択型Explainの区別を行い、特徴選択の視点に対する自動検証フレームワークを非自明なニューラルモデルを用いて導入し、人気のExplainersの失敗モードを実証し、オープンな評価テストを提供します。
For AI systems to garner widespread public acceptance, we must develop methods capable of explaining the decisions of black-box models such as neural networks. In this work, we identify two issues of current explanatory methods. First, we show that two prevalent perspectives on explanations --- feature-additivity and feature-selection --- lead to fundamentally different instance-wise explanations. In the literature, explainers from different perspectives are currently being directly compared, despite their distinct explanation goals. The second issue is that current post-hoc explainers are either validated under simplistic scenarios (on simple models such as linear regression, or on models trained on syntactic datasets), or, when applied to real-world neural networks, explainers are commonly validated under the assumption that the learned models behave reasonably. However, neural networks often rely on unreasonable correlations, even when producing correct decisions. We introduce a verification framework for explanatory methods under the feature-selection perspective. Our framework is based on a non-trivial neural network architecture trained on a real-world task, and for which we are able to provide guarantees on its inner workings. We validate the efficacy of our evaluation by showing the failure modes of current explainers. We aim for this framework to provide a publicly available, off-the-shelf evaluation when the feature-selection perspective on explanations is needed.
研究の動機と目的
- 特徴量追加型と特徴選択型の説明視点が、インスタンスごとの説明において基本的な違いであることを強調する。
- 非自明なニューラルモデルに対してターゲットモデルの挙動に関する保証を伴う、特徴選択型説明子を評価する自動検証フレームワークを提案する。
- 実世界のタスクで人気のExplainers(LIME、SHAP、L2X)の故障モードを示し、オープンソースの評価テストを提供する。
提案手法
- 実世界のビールレビュータスク(BeerAdvocate)で訓練されたRCNNベースのモデルを用いて、ゼロ寄与と明確に関連するトークンを識別できるデータセットを作成する。
- データを剪定してハンドシェイクを排除し、少なくとも1つの明確に関連するトークンを各インスタンスで確保し、 partitions S_x = SR_x ∪ SDK_x および N_x をゼロ寄与トークンとして得る。
- ゼロ寄与トークンを明確に関連するトークンよりランク付けすることを罰する評価指標を定義する:%_first、%_misrnk、avg_misrnk。
- これらの指標の下で、3つの説明子(LIME、SHAP - 特徴追加型; L2X - 特徴選択型)を3つの側面(外観、香り、味覚)で評価する。
- LIME/SHAPがL2Xより優れている理由の分析と、フレームワークの限界(普遍的なグラウンドトラ uthテストではない)について議論する。
- オフ・ザ・シェルでの評価テストをリリースし、コンピュータビジョンなど他のタスクへの適用性を論じる。
実験結果
リサーチクエスチョン
- RQ1特徴量追加性と特徴選択性の説明が、インスタンス単位の説明と評価の挙動においてどのように異なるか。
- RQ2非自明なニューラルネットワークを用いて、ターゲットモデルの挙動を保証しつつ、特徴選択型説明子の忠実性を自動的に検証できるか。
- RQ3現実世界のタスクで厳密な特徴選択フレームワークで評価したとき、人気のExplainers(LIME、SHAP、L2X)のどのような失敗モードが現れるか。
主な発見
| Model | %_first | %_misrnk | avg_misrnk | |
|---|---|---|---|---|
| APPEARANCE | LIME | 4.24 | 24.39 | 7.02 (24.12) |
| APPEARANCE | SHAP | 4.74 | 16.81 | 1.16 (7.75) |
| APPEARANCE | L2X | 6.58 | 28.85 | 3.54 (12.66) |
| AROMA | LIME | 14.79 | 32.08 | 12.74 (33.54) |
| AROMA | SHAP | 4.24 | 13.53 | 0.83 (7.10) |
| AROMA | L2X | 12.95 | 31.61 | 4.41 (16.25) |
| PALATE | LIME | 2.92 | 13.93 | 3.48 (17.38) |
| PALATE | SHAP | 2.65 | 9.20 | 9.25 (9.70) |
| PALATE | L2X | 12.77 | 29.83 | 3.70 (13.05) |
- LIMEとSHAPは、特徴選択の視点の下で、ゼロ寄与トークンを明確に関連するトークンより高くランク付けすることが多く、失敗モードを示す。
- L2Xは、特にK(事前指定の特徴数)がタスクと一致しない場合、いくつかのゼロ寄与トークンを明確に関連するトークンより上位にランク付けすることが多い。人手で注釈された平均値にKを設定すると性能が低下する。
- 総じて、LIMEとSHAPは調べた側面のほとんどで誤差率が低く抑えられた一方、L2Xは複数の設定で誤ランキングを示す。
- 評価フレームワークはグラウンドトゥルースなモデル推論理由を仮定せずに重大な失敗を自動的に明らかにでき、他分野への適用性もある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。