[论文解读] Attentive Explanations: Justifying Decisions and Pointing to the Evidence
本文提出Pointing and Justification-based Explanation(PJ-X)模型,一种多模态深度学习框架,可为视觉决策生成自然语言解释,同时生成注意力图以视觉化地定位这些解释。该模型在两个新型人类标注的数据集上进行训练:用于视觉问答的VQA-X和用于动作识别的ACT-X,在解释质量与证据指向两方面均优于基线模型,证明了模型能够生成类似人类的、有视觉依据的解释。
Deep models are the defacto standard in visual decision models due to their impressive performance on a wide array of visual tasks. However, they are frequently seen as opaque and are unable to explain their decisions. In contrast, humans can justify their decisions with natural language and point to the evidence in the visual world which led to their decisions. We postulate that deep models can do this as well and propose our Pointing and Justification (PJ-X) model which can justify its decision with a sentence and point to the evidence by introspecting its decision and explanation process using an attention mechanism. Unfortunately there is no dataset available with reference explanations for visual decision making. We thus collect two datasets in two domains where it is interesting and challenging to explain decisions. First, we extend the visual question answering task to not only provide an answer but also a natural language explanation for the answer. Second, we focus on explaining human activities which is traditionally more challenging than object classification. We extensively evaluate our PJ-X model, both on the justification and pointing tasks, by comparing it to prior models and ablations using both automatic and human evaluations.
研究动机与目标
- 开发一种深度学习模型,为视觉决策生成类似人类解释推理过程的自然语言解释。
- 通过学习注意力图,使模型能够视觉化地定位其解释所依赖的图像区域,从而实现解释的视觉锚定。
- 解决视觉推理任务中缺乏人类标注的文本解释与视觉证据数据集的问题。
- 评估模型生成准确解释与有意义指向行为的能力,提升深度视觉模型的可解释性。
- 证明模型能够生成直观、人类可理解的解释,同时反映其内部注意力机制。
提出的方法
- PJ-X模型采用双注意力机制:VQA-ATT用于决策,EXP-ATT用于生成解释,使预测与解释过程具有不同的视觉关注区域。
- 模型通过人类标注数据中的文本推理过程(即解释)进行端到端训练,使其能够学习语言与视觉证据之间的对齐。
- 引入一种新颖的解释注意力机制,将文本解释锚定在特定图像区域,确保解释具有视觉支持。
- 该框架应用于两个任务:视觉问答(VQA)与细粒度人类动作识别,分别使用众包方式收集了独立的数据集。
- 通过自动指标与人工评估对模型进行评估,与强基线模型及消融实验对比,以分离注意力机制与解释训练的贡献。
- 该方法支持两种解释风格:内省式(展示决策过程)与基于解释的(展示支持性证据),兼顾可解释性与用户友好性。
实验结果
研究问题
- RQ1深度学习模型能否生成既准确又基于视觉证据的自然语言解释?
- RQ2模型在做决策与生成解释时,能否学习关注不同的图像区域,从而反映类似人类的推理过程?
- RQ3在训练过程中引入人类标注的文本推理过程,是否能提升生成解释的质量与指向行为的准确性?
- RQ4模型的解释在识别失败模式(如因视觉误读导致的误分类)方面有何帮助?
- RQ5模型能否生成对终端用户可解释且反映内部注意力模式的解释?
主要发现
- PJ-X模型生成的文本解释质量高,语境恰当,且与视觉证据一致,经人工评估验证。
- 模型为决策(VQA-ATT)与解释(EXP-ATT)生成了不同的注意力图,表明其在两项任务中未依赖相同的视觉线索。
- 模型的解释常能揭示预测失败的原因,例如将红灯误判为绿灯,表明模型对视觉线索具有认知意识。
- 在VQA-X数据集上,模型的VQA性能略高于MCB(VQA 2016挑战赛冠军模型),同时具备解释能力。
- 在ACT-X数据集上,模型能正确预测细粒度动作(如BMX与竞速自行车),并生成与图像上下文和活动一致的解释。
- 消融实验表明,使用文本推理过程与双注意力机制均显著提升了解释质量与定位准确度。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。