QUICK REVIEW

[论文解读] Ask Your Neurons: A Neural-based Approach to Answering Questions about Images

Mateusz Malinowski, Marcus Rohrbach|arXiv (Cornell University)|May 5, 2015

Multimodal Machine Learning Applications参考文献 1被引用 186

一句话总结

本文提出 Neural-Image-QA，一种结合 CNN 提取图像特征与 LSTM 编码问题并生成答案的端到端神经网络，通过将先前方法的准确率翻倍，在视觉问答任务中达到最先进性能。该工作引入了包含多人答案的 DAQUAR-Consensus 数据集、基于共识的新评估指标，并表明仅使用语言的模型优于人类基线，表明模型已习得常识性理解。

ABSTRACT

We address a question answering task on real-world images that is set up as a Visual Turing Test. By combining latest advances in image representation and natural language processing, we propose Neural-Image-QA, an end-to-end formulation to this problem for which all parts are trained jointly. In contrast to previous efforts, we are facing a multi-modal problem where the language output (answer) is conditioned on visual and natural language input (image and question). Our approach Neural-Image-QA doubles the performance of the previous best approach on this problem. We provide additional insights into the problem by analyzing how much information is contained only in the language part for which we provide a new human baseline. To study human consensus, which is related to the ambiguities inherent in this challenging task, we propose two novel metrics and collect additional answers which extends the original DAQUAR dataset to DAQUAR-Consensus.

研究动机与目标

开发一种用于视觉问答的端到端神经网络，联合学习图像与自然语言问题的表示。
在 DAQUAR 基准测试上超越先前最先进方法的性能。
通过收集额外的参考答案，研究视觉问答中的人类共识与歧义性。
引入对人类分歧敏感的新评估指标：平均共识与最小共识。
探究仅语言模型是否能超越人类基线，从而反映模型中习得的常识性理解。

提出的方法

使用 CNN（如 GoogLeNet）从输入图像中提取深层视觉特征，随后与问题嵌入进行融合。
长短期记忆网络（LSTM）对自然语言问题进行编码，并基于图像和问题特征自回归地生成答案。
整个模型通过反向传播进行端到端训练，答案生成使用词级别交叉熵损失。
系统使用标准指标（准确率、WUPS）以及两种新型基于共识的指标进行评估：平均共识与最小共识。
训练一个仅语言的变体模型，不使用视觉输入，以评估模型仅从语言中推断答案的能力。
通过收集更多人工答案，将 DAQUAR 数据集扩展为 DAQUAR-Consensus，以研究标注者间的一致性与歧义性。

实验结果

研究问题

RQ1联合端到端神经网络架构是否能在视觉问答任务中超越先前方法？
RQ2仅语言模型在无视觉输入的情况下能多大程度上生成合理答案？其表现与人类相比如何？
RQ3人类对视觉问题的回答中存在多大程度的歧义？这种歧义能否被定量衡量？
RQ4基于共识的评估指标是否比标准指标更能反映人类分歧？
RQ5当前视觉问答模型的失败模式是什么，特别是在空间推理和罕见物体类别方面？

主要发现

Neural-Image-QA 在 DAQUAR-Consensus 数据集上使用最小共识指标达到 60.50% 的准确率，显著优于先前工作。
该模型在完整 DAQUAR 数据集上的性能通过将之前最佳方法的准确率翻倍而得到提升。
仅语言变体模型在原始 DAQUAR 测试集上达到 36.78% 的准确率，优于在相同条件下收集的新的人类基线。
将最小共识指标应用于人类答案后，人类基线在相同测试集上的得分从 20% 提升至 60.50%，表明标注者间存在高度分歧。
模型在空间推理（21 WUPS@0.9）、小物体、否定句和形状识别方面表现不佳，WUPS@0.9 分数低于 12。
失败案例包括严重遮挡、词汇表外答案（如 'toaster'）以及异常样本，凸显了全局 CNN 特征的局限性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。