Skip to main content
QUICK REVIEW

[論文レビュー] From Anecdotal Evidence to Quantitative Evaluation Methods: A Systematic Review on Evaluating Explainable AI

Meike Nauta, Jan Trienes|arXiv (Cornell University)|Jan 20, 2022
Explainable Artificial Intelligence (XAI)被引用数 30
ひとこと要約

大規模な系統的レビューで、XAI評価実践を対象とし、説明品質のCo-12特性を導入するとともに、説明可能なAI手法をベンチマークするための定量的評価手法を整理します。

ABSTRACT

The rising popularity of explainable artificial intelligence (XAI) to understand high-performing black boxes raised the question of how to evaluate explanations of machine learning (ML) models. While interpretability and explainability are often presented as a subjectively validated binary property, we consider it a multi-faceted concept. We identify 12 conceptual properties, such as Compactness and Correctness, that should be evaluated for comprehensively assessing the quality of an explanation. Our so-called Co-12 properties serve as categorization scheme for systematically reviewing the evaluation practices of more than 300 papers published in the last 7 years at major AI and ML conferences that introduce an XAI method. We find that 1 in 3 papers evaluate exclusively with anecdotal evidence, and 1 in 5 papers evaluate with users. This survey also contributes to the call for objective, quantifiable evaluation methods by presenting an extensive overview of quantitative XAI evaluation methods. Our systematic collection of evaluation methods provides researchers and practitioners with concrete tools to thoroughly validate, benchmark and compare new and existing XAI methods. The Co-12 categorization scheme and our identified evaluation methods open up opportunities to include quantitative metrics as optimization criteria during model training in order to optimize for accuracy and interpretability simultaneously.

研究の動機と目的

  • 説明の客観的で定量的な評価の必要性を、逸話的証拠を超えて動機づける。
  • 包括的評価のための説明品質特性を多面的に特定する。
  • 既存の評価手法を定量的指標へ統合・分類する。
  • ベンチマーキングとXAI手法の比較を可能にする、実用的でリポジトリに支えられた概要を提供する。

提案手法

  • DBLPキーワード検索を通じて12の旗艦会議から606報 paper (2014–2020) を収集。
  • 含有基準を適用して、XAI手法を導入・適用・評価する361報を特定。
  • 評価実践の分析のためのXAI手法を導入する312報に絞り込み。
  • Co-12プロパティを、内容、提示、ユーザーの次元で説明品質を評価する分類スキームとして開発。
  • Guidottiらの分類法に従い、データタイプ、説明タイプ、問題タイプ、モデルタイプ、タスクタイプ、説明手法の6次元でXAI手法を分類。
  • 312報の分類XAI手法を支援する、インタラクティブなウェブサイトを提供して、検索とベンチマークをサポート。

実験結果

リサーチクエスチョン

  • RQ1XAI研究における説明可能性・解釈可能性は逸話的な証拠を超えてどのように評価されているか。
  • RQ2XAIにはどのような定量的評価手法が存在し、それらは説明品質特性にどのように対応しているか。
  • RQ3XAI評価におけるユーザ研究の比率はどれくらいで、評価実践の傾向はどうか。
  • RQ4説明品質指標をモデル学習に組み込み、精度と解釈性を最適化できるか。

主な発見

  • XAI論文のおよそ3分の1は評価に逸話的証拠のみを用いる。
  • XAI論文のおよそ5分の1は評価にユーザ研究を含む。
  • 特徴量重要度が、手法全体で最も一般的な説明タイプである。
  • 説明は二値的ではなく多面的に扱われる。Co-12プロパティを動機づける。
  • 定量的XAI評価手法の包括的な概要が提供され、方法の堅牢なベンチマークと比較を促進する。
  • Co-12プロパティは構造化評価を可能にし、説明品質指標をトレーニング目標に組み込む機会を強調する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。