Skip to main content
QUICK REVIEW

[論文レビュー] Towards A Rigorous Science of Interpretable Machine Learning

Finale Doshi‐Velez, Been Kim|arXiv (Cornell University)|Feb 28, 2017
Explainable Artificial Intelligence (XAI)参考文献 26被引用数 3,111
ひとこと要約

MLの解釈可能性を評価するための形式的な枠組みと分類体系を提案し、適用、ヒト研究、代理指標を結びつけ、未解決の問題と研究課題を概説する。

ABSTRACT

As machine learning systems become ubiquitous, there has been a surge of interest in interpretable machine learning: systems that provide explanation for their outputs. These explanations are often used to qualitatively assess other criteria such as safety or non-discrimination. However, despite the interest in interpretability, there is very little consensus on what interpretable machine learning is and how it should be measured. In this position paper, we first define interpretability and describe when interpretability is needed (and when it is not). Next, we suggest a taxonomy for rigorous evaluation and expose open questions towards a more rigorous science of interpretable machine learning.

研究の動機と目的

  • MLの解釈可能性を定義し、信頼性や公正性などの関連基準と区別する。
  • 解釈可能性の厳密で証拠に基づく評価の必要性を主張する。
  • 解釈可能性を評価するための分類体系を提案する:application-grounded、human-grounded、functionally-grounded。
  • 解釈可能性の潜在的次元をデータ駆動的に明らかにするOpenな課題を概説する。
  • 研究者に対して解釈可能性の研究をどのように報告・枠組み化するかの推奨を提供する。

提案手法

  • 解釈可能性を“人間に対して理解可能な形で説明または提示できる能力”と定義する。
  • 評価の3階層の分類を導入する:application-grounded、human-grounded、functionally-grounded。
  • 解釈可能性に関する人間被験者実験のトレードオフと設計上の配慮を論じる。
  • TASK-METHODマトリクスやマトリクス分解のアイデアを含む、解釈可能性の潜在因子を発見するデータ駆動的アプローチを提案する。
  • 解釈可能性のタスク関連および手法関連の潜在次元に関する仮説を提案する。
  • 主張を適切な評価タイプに結びつけるベストプラクティスを概説する。

実験結果

リサーチクエスチョン

  • RQ1MLにおける解釈可能性の厳密で証拠に基づく評価とは何か。
  • RQ2評価を主張と一致させるために、解釈可能性をどのように分類すべきか(アプリケーション特化 vs 一般か)。
  • RQ3どの代理指標や要素がタスクと手法全体で解釈可能性を最もよく捉えるか。
  • RQ4アプリケーション grounded、ヒト grounded、機能 grounded の評価をどのように連携させることができるか。
  • RQ5解釈可能性研究の共通言語とリポジトリを構築するために解決すべきOpenな課題は何か。

主な発見

  • 解釈可能性には単一の普遍的に合意された定義がなく、意味ある比較を可能にするために formalization が必要である。
  • 評価アプローチの分類体系(application-grounded、human-grounded、functionally-grounded)を提案し、評価を主張のタイプに合わせる。
  • 人間による評価は不可欠だが困難であり、異なる評価タイプは異なるコストとバイアスを生む。
  • データ駆動的アプローチ(例:タスク-手法マトリクスと埋め込み)は解釈可能性の潜在次元を発見し、手法選択を導く可能性がある。
  • 3つのOpenな課題を特定:適切な代理指標の選択、エンド・タスクの本質を保つより単純なタスクの設計、説明品質の代理指標の特徴化。
  • 本論文は解釈可能性の研究を共通の分類体系の根拠に基づく実践的推奨を提供し、漠然とした主張を避ける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。