QUICK REVIEW

[論文レビュー] Towards Automatic Concept-based Explanations

Amirata Ghorbani, James Wexler|arXiv (Cornell University)|Feb 7, 2019

Explainable Artificial Intelligence (XAI)参考文献 47被引用数 86

ひとこと要約

ACEは、多分解能の画像全体にわたるセグメントをクラスタリングし、TCAVで重要性を測定することにより、データから人間が理解できる概念を自動的に発見し、ニューラルネットワークのグローバルで概念ベースの説明を可能にします。

ABSTRACT

Interpretability has become an important topic of research as more machine learning (ML) models are deployed and widely used to make important decisions. Most of the current explanation methods provide explanations through feature importance scores, which identify features that are important for each individual input. However, how to systematically summarize and interpret such per sample feature importance scores itself is challenging. In this work, we propose principles and desiderata for \emph{concept} based explanation, which goes beyond per-sample features to identify higher-level human-understandable concepts that apply across the entire dataset. We develop a new algorithm, ACE, to automatically extract visual concepts. Our systematic experiments demonstrate that \alg discovers concepts that are human-meaningful, coherent and important for the neural network's predictions.

研究の動機と目的

予測にとって意味があり、整合性が高く、局所的に重要である概念ベースの説明の望ましさを定義する。
人間が概念にラベルを付けることなく、データから高レベルの概念を自動的に発見する。
発見された概念が人間にとって意味があり、整合性があり、モデルの予測に対して予測力があることを示す。
ImageNetで広く使用されているCNNに適用可能な、スケーラブルなフレームワークを提供する。
概念とその重要性を検証するための実験を通じた、人間が関与する検証を提供する。

提案手法

訓練済み分類器とクラス固有の画像セットをACEに入力する。
複数の解像度で画像をセグメンテーションし、単純な概念から複雑な概念までを捉える。
セグメントをCNNの活性化空間にマッピングし、それらをクラスタリングして概念を形成し、外れ値を除去する。
TCAVを用いてターゲットクラスに対する概念の重要性を計算する。
人間の実験で概念の意味性と一貫性を評価し、概念ベースの重要性をSSC/SDCのアイデアを用いて分析する。

実験結果

リサーチクエスチョン

RQ1ACEは、手動の概念ラベリングなしに、データから意味があり、整合性のある概念を自動的に発見できるか。
RQ2抽出された概念は、モデルが予測に用いる要素を意味的に反映しているか。
RQ3概念が追加・削除されたとき、概念レベルの重要性スコア（TCAV）はどのように振る舞うか。
RQ4ACEで発見された概念から得られる、モデルについての定性的および定量的な洞察は何か。

主な発見

ACEは、複数の抽象レベル（テクスチャ、部品、物体）で概念を発見し、それらは整合性があり、人間にとってしばしば解釈可能である。
人間の実験は、発見された概念が個人を超えて整合的で意味があることを示している。
トップ概念は予測に大きな影響を与え、上位概念を除去すると評価画像の精度がかなり低下する。
100個のImageNetクラスについて、上位5つのACE概念を選択的に追加・削除した場合、元の精度のおおよそ80%に達する。
重要な概念を空白画像に Stitching しても正しいクラス予測につながることがあり、概念がモデルの顕著な手がかりを捉えていることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。