QUICK REVIEW

[論文レビュー] Explaining Explanations: An Overview of Interpretability of Machine Learning

Leilani H. Gilpin, David Bau|arXiv (Cornell University)|May 31, 2018

Explainable Artificial Intelligence (XAI)被引用数 30

ひとこと要約

本論文は、特に深層ニューラルネットワークを対象として、機械学習における解釈可能性（interpretability）と説明可能性（explainability）を評価・標準化する統合的フレームワークを提案する。説明の分類法を提示し、解釈可能性と説明可能性の違いを明確にし、信頼性、公平性、透明性を高めるために多面的な評価指標の導入を提唱する。

ABSTRACT

There has recently been a surge of work in explanatory artificial intelligence (XAI). This research area tackles the important problem that complex machines and algorithms often cannot provide insights into their behavior and thought processes. XAI allows users and parts of the internal system to be more transparent, providing explanations of their decisions in some level of detail. These explanations are important to ensure algorithmic fairness, identify potential bias/problems in the training data, and to ensure that the algorithms perform as expected. However, explanations produced by these systems is neither standardized nor systematically assessed. In an effort to create best practices and identify open challenges, we provide our definition of explainability and show how it can be used to classify existing literature. We discuss why current approaches to explanatory methods especially for deep neural networks are insufficient. Finally, based on our survey, we conclude with suggested future research directions for explanatory artificial intelligence.

研究の動機と目的

解釈可能AI（XAI）手法における標準化の欠如と体系的な評価の不足に対処すること。
解釈可能性（モデルの透明性）と説明可能性（システムが生成する正当化）の違いを明確にすること。
機械学習における説明の評価のための基盤的概念とベストプラクティスを確立すること。
特に深層ニューラルネットワークにおいて顕在する現在のアプローチのギャップを特定し、今後の研究方向性を提案すること。
AIシステムの信頼性と信頼性を高めるために、分野横断的共同開発を促進すること。

提案手法

説明の内容（例：モデルの挙動、内部表現、意思決定プロセス）に基づいて説明の分類法を構築する。
説明タイプ、対象ユーザー、評価手法などの次元に沿って、既存のXAI技術を分類するフレームワークを提唱する。
忠実性、ユーザーとの整合性、包括性を組み合わせた評価基準を提案し、説明の質を評価する。
注意マップ、概念活性化ベクトル（CAVs）、分離表現など、解釈可能性のための既存手法をレビュー・比較する。
多様なモodalな評価を強調：人間の注視と説明を比較し、既知の要因を持つ合成データ上でテストし、人間による研究を実施する。
因果推論、HCI、倫理学などの分野を統合することで、より強固で信頼できる説明を創出することを提唱する。

実験結果

リサーチクエスチョン

RQ1機械学習システムにおける解釈可能性と説明可能性の違いは何か？
RQ2忠実性、関連性、ユーザーとの整合性の観点から、説明を体系的に評価する方法は何か？
RQ3深層ニューラルネットワークにおける現在の説明手法の限界、特に敵対的耐性とバイアスの観点での課題は何か？
RQ4説明の目的と包括性に整合する多様な評価指標はどのように整えるべきか？
RQ5説明可能AIの発展に必要な分野横断的アプローチは何か？

主な発見

解釈可能性と説明可能性は明確に異なる：解釈可能なモデルは設計上透明であるが、すべての解釈可能なモデルが実行可能な説明を生み出すわけではない。
現在の深層ニューラルネットワーク向けの説明手法は、因果関係を的確に捉えたり、バイアスを信頼性を持って検出したりすることができず、特に敵対的条件下では顕著である。
説明の評価はモデルの挙動と本質的に結びついている—不適切な説明は、誤ったモデルや誤った説明生成器に起因する可能性がある。
説明の忠実性は、CAVを用いて画像分類におけるテキスト的キーワードへの依存度を検出するような転送タスクによってテスト可能である。
人間による評価とユーザー研究は、説明がユーザーの期待を満たしているか、信頼を高めているかを検証するために不可欠である。
自動評価指標と人間による評価を組み合わせた多面的評価戦略が、強固な説明評価に不可欠である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。