QUICK REVIEW

[论文解读] Visual7W: Grounded Question Answering in Images

Yuke Zhu, Oliver Groth|arXiv (Cornell University)|Nov 11, 2015

Multimodal Machine Learning Applications参考文献 53被引用 45

一句话总结

该论文提出了Visual7W，一个大规模数据集，包含327,939个基于图像区域的多选题问答对，支持文本答案和视觉答案的视觉问答任务。该研究提出了一种带有空间注意力机制的LSTM模型，在视觉问答任务上达到55.6%的准确率，显著优于先前模型，并显示出注意力图与目标定位之间良好的对齐性。

ABSTRACT

We have seen great progress in basic perceptual tasks such as object recognition and detection. However, AI models still fail to match humans in high-level vision tasks due to the lack of capacities for deeper reasoning. Recently the new task of visual question answering (QA) has been proposed to evaluate a model's capacity for deep image understanding. Previous works have established a loose, global association between QA sentences and images. However, many questions and answers, in practice, relate to local regions in the images. We establish a semantic link between textual descriptions and image regions by object-level grounding. It enables a new type of QA with visual answers, in addition to textual answers used in previous work. We study the visual QA tasks in a grounded setting with a large collection of 7W multiple-choice QA pairs. Furthermore, we evaluate human performance and several baseline models on the QA tasks. Finally, we propose a novel LSTM model with spatial attention to tackle the 7W QA tasks.

研究动机与目标

通过在视觉问答中引入基于目标的定位，弥合自然语言问题与特定图像区域之间的差距。
构建一个支持文本答案和视觉答案的基准数据集，以支持对模型在定位推理能力上的评估。
探究人类（96.6%准确率）与机器（LSTM基线模型为52.1%准确率）在定位视觉问答任务中的性能差距。
开发一种深度学习模型，利用空间注意力机制在回答问题时聚焦于相关图像区域。
分析训练数据中目标类别频率对模型性能及罕见类别知识迁移的影响。

提出的方法

对47,300张COCO图像进行标注，生成327,939个问答对，覆盖7W类问题类型（什么、哪里、何时、谁、为什么、如何、哪一个）。
通过将问题或答案中的每个目标提及与图像中的边界框关联，实现基于目标的定位。
提出一种新颖的基于LSTM的模型，结合空间注意力机制，在顺序处理问题词元时关注图像区域。
通过时间维度上的最大池化操作，生成14×14图像区域网格上的注意力热力图，可视化模型的关注位置。
使用多选题标注（130万个）和人工评估验证数据质量与模型性能。
对注意力热力图应用高斯模糊以增强可视化效果，并与真实目标边界框进行对比。

实验结果

研究问题

RQ1基于目标的定位能否提升视觉问答模型的性能与可解释性？
RQ2当前最先进模型在定位视觉问答任务上的表现与人类表现相比如何？
RQ3LSTM模型中的空间注意力机制在多大程度上与图像中真实目标位置对齐？
RQ4训练数据中目标类别频率如何影响模型准确率，尤其是对罕见类别的影响？
RQ5模型能否在视觉问答任务中有效实现从高频类别到罕见类别的知识迁移？

主要发现

人类在Visual7W数据集上的表现达到96.6%，与最佳基线LSTM模型52.1%的准确率相比存在显著差距。
所提出的LSTM-Att模型达到55.6%的准确率，在所有问题类型中均优于所有基线模型，仅在“如何”类问题上表现不佳。
模型的注意力热力图显示，24%的时间内，注意力峰值落在真实目标边界框内，表明与相关区域具有强对齐性。
对于训练数据中频率较低的目标类别，模型仍能达到超过50%的准确率，表明其能有效实现从高频类别到罕见类别的知识迁移。
模型在“如何”类问题上表现较差，表明其在推理因果或程序性关系方面存在局限。
当图像缺失时，LSTM模型达到46.2%的准确率，显著高于人类在相同任务中的表现（35.3%），表明模型在缺乏视觉上下文时严重依赖答案先验。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。