[論文レビュー] How do Humans Understand Explanations from Machine Learning Systems? An Evaluation of the Human-Interpretability of Explanation
本論文は、意思決定セットの説明が人間の出力と入力を検証する能力に最も影響を与える特性を、2つの領域(レシピと臨床)と複数の複雑さ要因を用いて実証的に調査している。
Recent years have seen a boom in interest in machine learning systems that can provide a human-understandable rationale for their predictions or decisions. However, exactly what kinds of explanation are truly human-interpretable remains poorly understood. This work advances our understanding of what makes explanations interpretable in the specific context of verification. Suppose we have a machine learning system that predicts X, and we provide rationale for this prediction X. Given an input, an explanation, and an output, is the output consistent with the input and the supposed rationale? Via a series of user-studies, we identify what kinds of increases in complexity have the greatest effect on the time it takes for humans to verify the rationale, and which seem relatively insensitive.
研究の動機と目的
- 検証タスクにおいて、説明が人間にとって解釈しやすくなる要因を定量化する。
- 意思決定セットの説明のうち、検証作業の負荷を最も増大させる要因を特定する。
- ドメイン文脈(レシピ vs 臨床)が説明の処理に影響を与えるかを評価する。
- 機械学習システムにおける人間にやさしい説明設計の指針を提供する。
提案手法
- 意思決定セットとして提示された合成の説明選択を用いた、制御されたユーザ研究を実施する。
- 行数と出力語の長さを変えることで説明サイズを操作する。
- 新しい認知チャンクを導入し、明示的なチャンク化と暗黙的チャンク化を比較する。
- 行間で入力語の繰り返しを変化させ、探索労力を測定する。
- 2つのドメイン(エイリアンのレシピ推奨とエイリアンの医療治療)で平行タスクを用いてテストする。
- 各条件で応答時間、正確さ、主観的満足度を測定する。
実験結果
リサーチクエスチョン
- RQ1どの説明の特性(サイズ、認知的チャンク化、語の繰り返し)が人間の検証性能に最も影響を与えるか?
- RQ2新しい概念の明示的導入と暗黙的埋め込みは、処理時間と満足度に影響を与えるか?
- RQ3説明の複雑さの効果は、ドメイン(レシピ vs 臨床)を超えて一貫しているか?
- RQ4説明の複雑さの要因は、説明の正確さと主観的な信頼にどう影響するか?
主な発見
- 説明の複雑さを高めると、一般的に応答時間が増え、満足度が低下する。
- 行数と出力節の長さが最も強く処理時間を増加させる。
- 新しい認知チャンク(明示的)の導入は、概念を暗黙的に埋め込むよりも処理時間を増やす傾向があり、満足度を低下させることがある。
- 繰り返し用語は、行の追加や新しい概念の追加と比べて応答時間と満足度への影響は穏やかである。
- 正確性は説明の複雑さの変動に対して比較的頑健であり、処理コストは主に応答時間と満足度へと移動する。
- 結果はレシピと臨床の両ドメインで広く一致しており、説明設計の一般化可能な原則を示唆する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。