[论文解读] Towards Transparent AI Systems: Interpreting Visual Question Answering Models
本文提出使用引导反向传播和遮挡技术,通过识别模型在预测过程中关注的图像区域和问题词汇,来解释视觉问答(VQA)模型。研究发现,即使没有显式的注意力机制,VQA模型也会隐式关注相关的图像区域和适当的问题词汇,其重要性图与人类注意力的皮尔逊等级相关系数为0.292,显示出中等程度的相关性。
Deep neural networks have shown striking progress and obtained state-of-the-art results in many AI research fields in the recent years. However, it is often unsatisfying to not know why they predict what they do. In this paper, we address the problem of interpreting Visual Question Answering (VQA) models. Specifically, we are interested in finding what part of the input (pixels in images or words in questions) the VQA model focuses on while answering the question. To tackle this problem, we use two visualization techniques -- guided backpropagation and occlusion -- to find important words in the question and important regions in the image. We then present qualitative and quantitative analyses of these importance maps. We found that even without explicit attention mechanisms, VQA models may sometimes be implicitly attending to relevant regions in the image, and often to appropriate words in the question.
研究动机与目标
- 为解决深度学习模型,特别是作为黑箱的视觉问答(VQA)模型缺乏透明性的问题。
- 探究VQA模型在做出预测时依赖于输入的哪些部分(图像像素或问题词汇)。
- 评估VQA模型在无显式注意力机制的情况下,是否隐式关注相关图像区域和适当的问题词汇。
- 通过可视化技术提供可解释的模型行为洞察,提升信任度与可靠性。
提出的方法
- 对图像特征和问题标记应用引导反向传播,以计算基于梯度的重要性图。
- 通过系统性地遮挡图像区域和问题词汇,测量预测置信度的变化,以实现遮挡重要性分析。
- 通过模型最终预测层对输入图像特征的梯度计算,生成图像重要性图。
- 通过计算对问题标记的一位编码表示的梯度,生成问题重要性图。
- 将生成的重要性图与VQA数据集中的人工标注注意力图进行比较,以评估对齐程度。
- 通过词性(POS)标签分析重要词汇的统计分布,以验证其语言学一致性。
实验结果
研究问题
- RQ1在无显式注意力机制的情况下,VQA模型在多大程度上隐式关注相关图像区域?
- RQ2问题中的哪些词汇对模型预测最具影响力?它们是否与名词、wh-词等语言学上有意义的类别一致?
- RQ3模型生成的图像重要性图与人工标注的注意力图之间的相关性如何?
- RQ4当遮挡导致预测答案发生变化时,重要性图是否能预测模型的失败?
- RQ5通过词性标签分析,重要性图是否反映出对问题语义的连贯理解?
主要发现
- 引导反向传播生成的图像重要性图与人类注意力图的等级相关系数为0.292 ± 0.004,表明与人类视觉焦点存在中等程度的对齐。
- 基于遮挡的重要性图与人类注意力图的等级相关系数为0.173 ± 0.004,表明对齐程度较弱但仍为正相关。
- 模型在问题中最关键的词汇主要为wh-词、名词和形容词,表明其注意力具有语义一致性。
- wh-词成为最关键词汇的概率最高,其次是形容词和名词,支持模型具备语言推理能力。
- 在遮挡过程中预测答案发生变化的次数与模型准确率相关,表明重要性图可作为模型可靠性的信号。
- 即使没有显式注意力机制,VQA模型仍会隐式关注相关图像区域和语义上有意义的问题词汇。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。