[論文レビュー] The Disagreement Problem in Explainable Machine Learning: A Practitioner's Perspective
本論文はポストホック説明間の不一致を形式化し、それをデータセットとモデル全体にわたって実証し、実務家にはそのような不一致を解決する体系的手法が不足していることを示している。
As various post hoc explanation methods are increasingly being leveraged to explain complex models in high-stakes settings, it becomes critical to develop a deeper understanding of whether and when the explanations output by these methods disagree with each other, and how such disagreements are resolved in practice. However, there is little to no research that provides answers to these critical questions. In this work, we formalize and study the disagreement problem in explainable machine learning. More specifically, we define the notion of disagreement between explanations, analyze how often such disagreements occur in practice, and how practitioners resolve these disagreements. We first conduct interviews with data scientists to understand what constitutes disagreement between explanations generated by different methods for the same model prediction, and introduce a novel quantitative framework to formalize this understanding. We then leverage this framework to carry out a rigorous empirical analysis with four real-world datasets, six state-of-the-art post hoc explanation methods, and six different predictive models, to measure the extent of disagreement between the explanations generated by various popular explanation methods. In addition, we carry out an online user study with data scientists to understand how they resolve the aforementioned disagreements. Our results indicate that (1) state-of-the-art explanation methods often disagree in terms of the explanations they output, and (2) machine learning practitioners often employ ad hoc heuristics when resolving such disagreements. These findings suggest that practitioners may be relying on misleading explanations when making consequential decisions. They also underscore the importance of developing principled frameworks for effectively evaluating and comparing explanations output by various explanation techniques.
研究の動機と目的
- 実務家の視点で、異なる方法による局所説明の不一致が何を意味するのかを定義する。
- 同じ予測に対する二つの説明の不一致を測定するための定量的な枠組みを開発する。
- 実世界のデータセット、モデル、説明手法における不一致を実証的に定量化する。
- ユーザー調査を通じてデータサイエンティストが実務でどのように不一致を解決しているかを調査する。
- 評価指標と実務者教育への示唆を特定する。
提案手法
- 25人のデータサイエンティストを対象に半構造化インタビューを実施し、説明の不一致を構成する要素を特徴づける。
- 上位k特徴の重なり、順序、符号/方向の整合性に焦点を当てた6つの指標を用いて説明の不一致を形式化する。
- 4つの実世界データセットに対して、表形式、テキスト、画像のモダリティにまたがり、6つのポストホック説明法(LIME, KernelSHAP, Vanilla Gradient, Gradient*Input, Integrated Gradients, SmoothGrad)を訓練・評価する。
- 表形式用にlogistic regression, feed-forward NN, random forest, gradient boosted trees; テキスト用にLSTM; 画像用にResNet-18 の4つのモデルファミリを使用する。
- 6つの不一致指標を用いて説明を比較し、不一致がkとモデルの複雑さによってどう変化するかを研究する。
実験結果
リサーチクエスチョン
- RQ1最先端のポストホック説明手法は、同じ予測に対してどの程度頻繁に説明が不一致になるのか?
- RQ2実務家は不一致としてどの側面を考慮するか(top-k特徴、順序、符号、相対的特徴重要度)?
- RQ3説明間の不一致を一般的な枠組みで形式化・定量化できるか?
- RQ4実務家は実践でどのように不一致を解決し、どのような戦略を報告しているか?
主な発見
- インタビュー対象のデータサイエンティストのうち84%が、作業フローの中で説明間の不一致に直面したと報告している。
- オンライン調査の参加者の86%が任意のヒューリスティックに頼んだり、不一致を解決する方法を知らなかった。
- Grad-SmoothGradとGrad*Input-IntGradは同意する傾向がある一方、Grad-IntGrad、Grad-Grad*Input、SmoothGrad-Grad*Input、SmoothGrad-IntGradは不一致になる傾向があり、勾配ベースの方法間の二分化を示している。
- 不一致はモデルクラスやデータモダリティを越えて一貫して現れ、特徴量が多いデータセット(例: German Credit)やより複雑なモデルでより強い不一致が観察される。
- top-kが大きくなるにつれて不一致は増加し、順位の一致と符号付き順位の一致が低下し、特徴量の順序と符号に対する感度を強調している。
- ユーザーは特徴量重要度の値(例: LIME vs SHAP)は直接比較できないと強調するが、上位特徴とその順序に関する一貫した洞察が期待される。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。