Skip to main content
QUICK REVIEW

[论文解读] Self-Critical Reasoning for Robust Visual Question Answering

Jialin Wu, Raymond J. Mooney|arXiv (Cornell University)|May 24, 2019
Multimodal Machine Learning Applications参考文献 37被引用 91
一句话总结

该论文为 VQA 引入一个自我批判训练目标,惩罚对最具影响力的图像区域过于敏感导致的错误答案,使用人类或 QA 派生的解释来引导对象重要性,在 VQA-CP 数据集上实现了最先进的泛化。

ABSTRACT

Visual Question Answering (VQA) deep-learning systems tend to capture superficial statistical correlations in the training data because of strong language priors and fail to generalize to test data with a significantly different question-answer (QA) distribution. To address this issue, we introduce a self-critical training objective that ensures that visual explanations of correct answers match the most influential image regions more than other competitive answer candidates. The influential regions are either determined from human visual/textual explanations or automatically from just significant words in the question and answer. We evaluate our approach on the VQA generalization task using the VQA-CP dataset, achieving a new state-of-the-art i.e., 49.5% using textual explanations and 48.5% using automatically annotated regions.

研究动机与目标

  • 激发 VQA 模型对语言先验的过拟合问题以及在 QA 分布变化下的泛化能力差。
  • 提出一种自我批判的训练目标,抑制错误答案对有影响力的图像区域的敏感性。
  • 利用人类的视觉/文本解释或基于 QA 的对象集合来识别有影响力的区域。
  • 在基于 UpDn 的模型上展示在 VQA-CP 上的泛化改进,无论是否有人工解释。

提出的方法

  • 基础 VQA 系统:Bottom-Up Top-Down(UpDn)架构。
  • 从视觉解释(VQA-HAT)、文本解释(VQA-X)或基于 QA 的名词中,为每个问答对识别一个有影响力的对象集合 I。
  • 使用修改后的 Grad-CAM(无 ReLU、无特征向量加权)计算对对象的答案敏感性。
  • 通过影响增强损失 L_infl 来强化最具影响力的对象,确保正确答案基于这些有影响力的区域。
  • 引入自我批判损失 L_crit,在最具影响力对象 v* 的基础上,最小化竞争性错误答案的敏感性差距(以 GloVe 向量的余弦距离作权重)。
  • 训练流程:先以 L_vqa 进行预训练,随后用 L_infl 进行微调,然后联合优化 L_vqa + λ_infl L_infl + λ_crit L_crit,使用前五名竞争答案的一组;对象集合规模较小(6),候选来自解释或 QA 名词。

实验结果

研究问题

  • RQ1一个自我批判目标是否能降低 VQA 中错误答案对最具影响力的图像区域的敏感性?
  • RQ2是否利用人类(视觉/文本)解释或基于 QA 的对象集合可以改善在先验分布变化下的泛化能力(VQA-CP)?
  • RQ3所提方法对跨数据集正确答案与错误答案在有影响力对象上的定位有何影响?

主要发现

  • 在文本解释(VQA-X)下实现 VQA-CP 的新一代最先进结果(49.5%),在视觉解释(VQA-HAT)下具竞争力(49.1% HAT),在 QA 派生对象方面为 48.5%。
  • 在使用 VQA-HAT 或 VQA-X 监督时,优于以往方法(如 HINT)在 VQA-CP 上的显著提升。
  • 自我批判训练后错误的敏感性率显著下降(从 35.5% 降至约 20% 左右),表明该方法减少了错误答案对有影响区域的依赖。
  • 影响增强加上自我批判损失在一系列损失权重与对象集合规模上均表现出稳健的收益。
  • 基于 QA 的有影响力对象候选与人工提供的候选高度重叠(VQA-X 57.1%,VQA-HAT 54.3%),表明 QA 派生集合捕捉了有意义的区域。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。