QUICK REVIEW

[论文解读] Towards Automatic Concept-based Explanations

Amirata Ghorbani, James Wexler|arXiv (Cornell University)|Feb 7, 2019

Explainable Artificial Intelligence (XAI)参考文献 47被引用 86

一句话总结

ACE 自动从数据中发现人类可理解的概念，方法是对跨多分辨率图像的片段进行聚类并用 TCAV 测量它们的重要性，从而实现对神经网络的全局、基于概念的解释。

ABSTRACT

Interpretability has become an important topic of research as more machine learning (ML) models are deployed and widely used to make important decisions. Most of the current explanation methods provide explanations through feature importance scores, which identify features that are important for each individual input. However, how to systematically summarize and interpret such per sample feature importance scores itself is challenging. In this work, we propose principles and desiderata for \emph{concept} based explanation, which goes beyond per-sample features to identify higher-level human-understandable concepts that apply across the entire dataset. We develop a new algorithm, ACE, to automatically extract visual concepts. Our systematic experiments demonstrate that \alg discovers concepts that are human-meaningful, coherent and important for the neural network's predictions.

研究动机与目标

定义面向预测具有意义、连贯且局部重要的基于概念的解释的理想特性。
在不需要人工对概念进行标注的情况下，自动从数据中发现高层次概念。
证明所发现的概念对人类有意义、连贯，并且对模型的预测具有预测性。
提供一个可扩展的框架，适用于 ImageNet 上广泛使用的 CNN。
通过实验提供人机参与的验证，以验证概念及其重要性。

提出的方法

将训练好的分类器和一组类别特异图像输入到 ACE。
在多分辨率下对图像进行分割，以捕捉从简单到复杂的概念。
将片段映射到 CNN 激活空间并聚类形成概念，去除离群值。
使用 TCAV 计算概念对目标类别的重要性。
通过人类实验评估概念的意义和连贯性，并利用 SSC/SDC 的想法分析基于概念的重要性。

实验结果

研究问题

RQ1ACE 能否在不进行手动概念标注的情况下，自动从数据中发现有意义、连贯的概念？
RQ2提取的概念是否有意义地反映了模型在预测中使用的内容？
RQ3当添加或移除概念时，概念层面的重要性分数（TCAV）如何表现？
RQ4通过 ACE 发现的概念，模型会出现哪些定性和定量的洞见？

主要发现

ACE 在多种抽象层级（纹理、部件、物体）发现概念，具有连贯性，且往往可被人类理解。
人类实验显示所发现的概念在不同个体之间是连贯且有意义的。
顶端概念显著影响预测；移除顶部概念会显著降低在评估图像上的准确性。
对于 100 个 ImageNet 类，前 5 个 ACE 概念在选择性添加或移除时足以达到约原始准确性的 80%。
将重要概念拼接在空白图像上也能得到正确的类别预测，表明概念捕捉了模型的显著线索。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。