QUICK REVIEW

[论文解读] What value do explicit high level concepts have in vision to language problems?

Qi Wu, Chunhua Shen|arXiv (Cornell University)|Jun 3, 2015

Multimodal Machine Learning Applications参考文献 70被引用 33

一句话总结

本文通过将学习到的图像属性整合到CNN-RNN框架中，研究了视觉-语言（V2L）任务中显式高层语义概念的价值。通过引入一个可训练的属性预测网络并将其输入LSTM解码器，该方法在图像字幕生成（BLEU-1: 0.73）和视觉问答（VQA）任务中（在VQA上准确率达到57.62%）取得了最先进性能，表明显式高层概念显著提升了V2L性能，尤其在常识推理方面表现突出。

ABSTRACT

Much of the recent progress in Vision-to-Language (V2L) problems has been achieved through a combination of Convolutional Neural Networks (CNNs) and Recurrent Neural Networks (RNNs). This approach does not explicitly represent high-level semantic concepts, but rather seeks to progress directly from image features to text. We propose here a method of incorporating high-level concepts into the very successful CNN-RNN approach, and show that it achieves a significant improvement on the state-of-the-art performance in both image captioning and visual question answering. We also show that the same mechanism can be used to introduce external semantic information and that doing so further improves performance. In doing so we provide an analysis of the value of high level semantic information in V2L problems.

研究动机与目标

探究尽管直接CNN-RNN方法已取得成功，显式高层语义概念是否能提升视觉-语言任务的性能。
开发一种将人类可解释的语义属性整合到标准CNN-RNN流水线中的方法，用于图像字幕生成和视觉问答任务。
评估外部知识（如WordNet）对增强属性表征及提升V2L模型推理能力的影响。
证明显式高层表征在视觉-语言任务的生成与理解方面均能带来可测量的性能提升。

提出的方法

训练一个基于CNN的属性分类器，以从图像特征中预测256个人类可理解的语义属性（如“睡觉”、“浴室”）的可能性。
预测的属性概率构成一个高层语义表征，用作LSTM解码器的输入，替代或补充原始图像特征。
采用知识扩展策略，利用WordNet将图像来源的属性扩展至更广泛的知识来源词汇表（9,762个词），从而丰富语义覆盖范围。
基于预训练的word2vec嵌入构建相似性矩阵，将基于图像的属性映射到基于知识的术语，通过最大池化操作生成知识增强的属性向量。
最终的属性向量（来自图像或知识来源）被输入LSTM以生成字幕或回答问题。
使用交叉熵损失对模型进行端到端训练，适用于字幕生成和VQA两项任务。

实验结果

研究问题

RQ1与直接的图像特征到文本映射相比，引入显式高层语义概念是否能提升视觉-语言任务的性能？
RQ2学习到的语义属性是否能增强视觉问答中的推理能力，特别是对常识性问题？
RQ3通过外部知识（如WordNet）扩展图像来源的属性，在多大程度上能提升模型的泛化能力和性能？
RQ4在不同V2L基准测试中，基于属性的表征与端到端CNN-RNN基线模型相比，在准确率和鲁棒性方面表现如何？

主要发现

所提出的基于属性的模型在Microsoft COCO字幕挑战赛中取得了BLEU-1得分为0.73的成绩，创下了当时的新SOTA记录。
在Toronto COCO-QA数据集上，模型取得了WUPS@0.9得分为71.15，超过此前SOTA的66.78。
在开放式VQA（test-standard）基准上，模型达到了55.84%的准确率，优于基线的54.06%。
在使用WordNet进行知识扩展后，模型在VQA测试集上达到了57.62%的准确率，显著优于基线。
模型在常识推理类问题上表现出显著提升，例如“为什么”类问题准确率达到9.88%，以及“什么类型”类问题准确率达到45.23%，表明通过语义知识增强了推理能力。
基于属性的框架使模型能够访问外部知识源，从而在需要超越视觉外观的世界知识的问题上表现更优。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。