Skip to main content
QUICK REVIEW

[论文解读] Learning to Answer Questions From Image Using Convolutional Neural Network

Lin Ma, Zhengdong Lu|arXiv (Cornell University)|Jun 1, 2015
Multimodal Machine Learning Applications参考文献 26被引用 29
一句话总结

本文提出了一种用于视觉问答(VQA)的端到端卷积神经网络(CNN)模型,通过三个专用CNN联合学习图像与问题的表征:一个用于图像编码,一个用于问题构成,一个用于多模态交互。该模型通过分层特征学习和专用的多模态卷积层,有效捕捉复杂的跨模态关系,在DAQUAR和COCO-QA数据集上显著优于先前方法。

ABSTRACT

In this paper, we propose to employ the convolutional neural network (CNN) for the image question answering (QA). Our proposed CNN provides an end-to-end framework with convolutional architectures for learning not only the image and question representations, but also their inter-modal interactions to produce the answer. More specifically, our model consists of three CNNs: one image CNN to encode the image content, one sentence CNN to compose the words of the question, and one multimodal convolution layer to learn their joint representation for the classification in the space of candidate answer words. We demonstrate the efficacy of our proposed model on the DAQUAR and COCO-QA datasets, which are two benchmark datasets for the image QA, with the performances significantly outperforming the state-of-the-art.

研究动机与目标

  • 通过联合学习图像与自然语言问题的表征,解决视觉问答(VQA)的挑战。
  • 通过使用卷积架构建模图像与语言模态之间的复杂交互,提升现有方法的性能。
  • 证明端到端训练中为图像、句子和多模态表征学习专门设计CNN的有效性。
  • 验证通过CNN对词语进行分层组合,相比RNN或词袋模型,能生成更鲁棒的问题表征。
  • 分析每个组件——图像CNN、句子CNN和多模态卷积层——对整体模型性能的贡献。

提出的方法

  • 该模型使用专用的图像CNN从输入图像中提取分层视觉特征。
  • 使用句子CNN通过卷积和池化操作,将词嵌入组合成问题的高层语义表征。
  • 多模态卷积层融合图像与问题表征,学习它们之间的局部与全局交互。
  • 将多模态层生成的联合表征输入softmax层,从候选答案集中预测答案。
  • 整个网络通过三元组损失在(图像,问题,答案)样本上进行端到端训练。
  • 在两个基准数据集DAQUAR和COCO-QA上评估模型,使用准确率、WUPS@0.9和WUPS@0.0作为指标。

实验结果

研究问题

  • RQ1纯卷积架构能否有效建模图像与自然语言问题之间的交互以用于VQA?
  • RQ2在学习VQA问题表征方面,句子CNN相较于RNN或词袋模型的性能如何?
  • RQ3与简单拼接相比,多模态卷积层在捕捉跨模态依赖关系方面有何贡献?
  • RQ4图像与问题表征各自对答案预测准确率的贡献程度如何?
  • RQ5当问题中的词语顺序被随机化时,句子CNN是否仍能学习到自然语言问题的有意义表征?

主要发现

  • 所提出的CNN模型在DAQUAR和COCO-QA数据集上均达到最先进性能,显著优于基于LSTM和视觉语义嵌入的现有方法。
  • 与简单拼接图像与问题特征相比,多模态卷积层显著提升了性能,证明其在建模复杂跨模态交互方面的有效性。
  • 句子CNN在学习问题表征方面优于BOW和基于LSTM的模型,表明其在从序列化词语中组合有意义语义特征方面具有更强能力。
  • 移除图像表征后,人类类似性能从50%降至12%,证实视觉上下文在VQA中的关键作用。
  • 当问题中的词语被随机打乱时,模型在COCO-QA上的准确率降至40.74%,表明句子CNN能有效捕捉自然问题的句法与语义结构。
  • 包含所有组件的完整模型达到最高准确率,表明图像、问题与多模态表征的联合学习对实现最优性能至关重要。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。