QUICK REVIEW

[论文解读] Are Visual Explanations Useful? A Case Study in Model-in-the-Loop Prediction

Eric Chu, Deb Roy|arXiv (Cornell University)|Jul 23, 2020

Explainable Artificial Intelligence (XAI)被引用 28

一句话总结

本研究调查了视觉解释是否能提升人类在模型-人类协同年龄预测任务中的准确性与信任度。通过一项随机对照试验，使用高质量、存在虚假相关性以及随机的模型生成的显著性图，研究发现，无论解释质量如何，视觉解释对人类表现、信任度或理解度均无显著影响。

ABSTRACT

We present a randomized controlled trial for a model-in-the-loop regression task, with the goal of measuring the extent to which (1) good explanations of model predictions increase human accuracy, and (2) faulty explanations decrease human trust in the model. We study explanations based on visual saliency in an image-based age prediction task for which humans and learned models are individually capable but not highly proficient and frequently disagree. Our experimental design separates model quality from explanation quality, and makes it possible to compare treatments involving a variety of explanations of varying levels of quality. We find that presenting model predictions improves human accuracy. However, visual explanations of various kinds fail to significantly alter human accuracy or trust in the model - regardless of whether explanations characterize an accurate model, an inaccurate one, or are generated randomly and independently of the input image. These findings suggest the need for greater evaluation of explanations in downstream decision making tasks, better design-based tools for presenting explanations to users, and better approaches for generating explanations.

研究动机与目标

评估高质量视觉解释是否能提升模型-人类协同设置下人类决策准确性的目标。
评估存在缺陷或随机的解释是否降低人类对模型预测的信任度。
在复杂且真实的感知任务中，将解释质量的影响与模型性能的影响分离开来。
探究解释是否可作为识别有偏见或不准确模型的认证工具。
挑战‘忠实的解释必然增强人机协作’这一假设。

提出的方法

在基于网络的图像年龄预测平台上，对1,000多名参与者开展了随机对照试验（RCT）。
使用在APPA-REAL数据集上微调的Wide ResNet模型，实现5.24 MAE（接近人类水平的表现）。
生成三种类型的视觉解释：集成梯度（忠实）、存在虚假相关性的模型生成的显著性图，以及与输入无关的随机图。
将参与者分配至不同治疗组，各组包含不同的模型预测、解释类型及模型性能描述组合。
对数据集进行平衡处理，确保模型表现优于或劣于人类先前猜测的图像比例相等。
测量的指标包括人类准确性、对预测的信任度，以及对模型行为的理解程度。

实验结果

研究问题

RQ1提供高质量视觉解释是否能显著提升模型-人类协同年龄预测中的人类准确性？
RQ2存在缺陷或随机的解释是否能显著降低人类对模型预测的信任度？
RQ3当解释质量不同时，人类表现或信任度是否存在可测量的差异？
RQ4视觉解释能否作为认证机制，帮助用户识别模型偏差或错误？
RQ5无论质量如何，解释的存在是否改变了人类对模型行为的理解？

主要发现

仅提供模型预测相比无模型辅助，显著提升了人类的准确性。
不同质量的视觉解释——包括忠实、虚假或随机解释——对人类准确性无显著影响。
即使明显不可靠的随机解释也未能降低人类对模型预测的信任度。
在信任度或理解度方面，高质量解释组与随机或有缺陷解释组之间无显著差异。
视觉显著性解释的质量并未影响人类在模型-人类协同任务中的决策结果。
本研究表明，像素级归因解释可能无法有效提升下游的人机协作效果。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。