[论文解读] RISE: Randomized Input Sampling for Explanation of Black-box Models
RISE 通过探测随机掩蔽输入来解释黑箱图像分类器,构建像素级显著性图,使用自动因果度量(删除/插入)和以人为中心的指向游戏进行评估。
Deep neural networks are being used increasingly to automate data analysis and decision making, yet their decision-making process is largely unclear and is difficult to explain to the end users. In this paper, we address the problem of Explainable AI for deep neural networks that take images as input and output a class probability. We propose an approach called RISE that generates an importance map indicating how salient each pixel is for the model's prediction. In contrast to white-box approaches that estimate pixel importance using gradients or other internal network state, RISE works on black-box models. It estimates importance empirically by probing the model with randomly masked versions of the input image and obtaining the corresponding outputs. We compare our approach to state-of-the-art importance extraction methods using both an automatic deletion/insertion metric and a pointing metric based on human-annotated object segments. Extensive experiments on several benchmark datasets show that our approach matches or exceeds the performance of other methods, including white-box approaches. Project page: http://cs-people.bu.edu/vpetsiuk/rise/
研究动机与目标
- 解释视觉任务中深度神经网络作为黑箱决策者的需求动机。
- 提出一种通用的、无需访问模型内部的黑箱显著性方法。
- 用自动因果度量和以人为为中心的度量对显著性质量进行定量评估。
- 展示对多种数据集和基础架构的适用性。
- 证明 RISE 可以扩展到对图像字幕生成模型的解释。
提出的方法
- 生成随机二进制掩模并通过逐元素掩蔽将其上采样以扰动输入图像。
- 将显著性图定义为掩模的加权和,权重为基模型在被掩蔽输入上的输出分数。
- 使用蒙特卡罗采样的 N 个随机掩模来估计显著性图,作为 f(I ⊙ M_i) · M_i 的平均值,并乘以 E[M]。
- 使用双线性上采样和随机空间移位来创建平滑、鲁棒的掩模。
- 用删除和插入度量来评估解释,衡量按显著性图移除或添加像素时类别概率的下降或上升。
- 与白箱和其他黑箱方法在数据集(PASCAL VOC07、MSCOCO2014、ImageNet)上进行比较。
实验结果
研究问题
- RQ1在不访问梯度或内部结构的情况下,完全黑箱方法是否能够为图像分类器产生可靠的像素级解释?
- RQ2结合学习的掩模权重的随机输入掩模是否能提供与白箱方法相竞争的显著性图?
- RQ3删除/插入度量如何反映跨架构和数据集的解释因果质量?
- RQ4RISE 是否也适用于除分类任务外的字幕生成模型?
主要发现
- RISE 在 ImageNet 上针对 ResNet50 和 VGG16 的删除和插入分数优于若干基线(删除分数越低越好,插入越高越好)。
- 对于 ResNet50,删除 0.1076±0.0005,插入 0.7267±0.0006;对于 VGG16,删除 0.0980±0.0025,插入 0.6663±0.0014。
- RISE 在 ImageNet 的指标上优于 Grad-CAM,同时仍然是一个不需要内部模型结构的黑箱方法。
- 在 VOC MSCOCO 上,RISE 在指向游戏的准确性上优于其他黑箱方法,并且与白箱方法具有竞争力。
- RISE 可以通过评估掩蔽输入下的词级显著性来扩展解释图像字幕模型。
- 该方法在多次运行(以 mean±std. 表示,3 次运行)下具有鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。