Skip to main content
QUICK REVIEW

[论文解读] Metrics for Explainable AI: Challenges and Prospects

Robert R. Hoffman, Shane T. Mueller|arXiv (Cornell University)|Dec 11, 2018
Explainable Artificial Intelligence (XAI)参考文献 107被引用 220
一句话总结

这篇论文通过研究如何衡量解释性人工智能(XAI)来评估解释质量、用户满意度与理解、以好奇心驱动的解释寻求、适当的信任与依赖,以及整体的人机-XAI系统性能,并借鉴心理测量学和文献整合。

ABSTRACT

The question addressed in this paper is: If we present to a user an AI system that explains how it works, how do we know whether the explanation works and the user has achieved a pragmatic understanding of the AI? In other words, how do we know that an explanainable AI system (XAI) is any good? Our focus is on the key concepts of measurement. We discuss specific methods for evaluating: (1) the goodness of explanations, (2) whether users are satisfied by explanations, (3) how well users understand the AI systems, (4) how curiosity motivates the search for explanations, (5) whether the user's trust and reliance on the AI are appropriate, and finally, (6) how the human-XAI work system performs. The recommendations we present derive from our integration of extensive research literatures and our own psychometric evaluations.

研究动机与目标

  • 激发在可解释AI(XAI)中进行测量的需求,以确保实际的用户理解。
  • 确定XAI评估的关键测量目标(解释质量、用户满意度、理解、好奇心、信任/依赖、系统性能)。
  • 综合大量文献与心理测量学工作的见解,以指导评估实践。

提出的方法

  • 整合关于XAI与测量的多样化研究文献。
  • 提出以心理测量评估与用户研究为基础的评估概念和领域。
  • 提出对用户–AI解释循环多方面进行评估的建议。

实验结果

研究问题

  • RQ1如何评估AI系统提供的解释的质量?
  • RQ2用户对解释的满意度有多高,以及这与理解之间的关系?
  • RQ3解释在多大程度上激发好奇心和对进一步信息的搜索?
  • RQ4给定解释时,用户对AI系统的信任与依赖有多合适?
  • RQ5应如何整体评估人机XAI工作系统?

主要发现

  • 提供涵盖解释质量、用户满意度、理解、好奇心、信任/依赖和系统层面性能的一组测量目标。
  • 倡导整合大量文献与心理测量评估,以得出XAI测量的可操作建议。
  • 基于综合证据与评估范式,提出评估XAI有效性的具体建议。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。