QUICK REVIEW

[论文解读] Learning a Recurrent Visual Representation for Image Caption Generation

Xinlei Chen, C. Lawrence Zitnick|arXiv (Cornell University)|Nov 20, 2014

Multimodal Machine Learning Applications参考文献 35被引用 180

一句话总结

该论文提出了一种双向循环神经网络模型，学习图像字幕任务中的共享视觉-语义表征，实现从图像生成新字幕以及从文本重建视觉特征。通过引入一种动态编码已见概念的循环视觉记忆机制，该模型在图像字幕生成任务上达到当前最优性能，在 MS COCO 数据集上，人工偏好测试中其生成字幕的偏好度在 19.8% 的比较中超过人工编写字幕。

ABSTRACT

In this paper we explore the bi-directional mapping between images and their sentence-based descriptions. We propose learning this mapping using a recurrent neural network. Unlike previous approaches that map both sentences and images to a common embedding, we enable the generation of novel sentences given an image. Using the same model, we can also reconstruct the visual features associated with an image given its visual description. We use a novel recurrent visual memory that automatically learns to remember long-term visual concepts to aid in both sentence generation and visual feature reconstruction. We evaluate our approach on several tasks. These include sentence generation, sentence retrieval and image retrieval. State-of-the-art results are shown for the task of generating novel image descriptions. When compared to human generated captions, our automatically generated captions are preferred by humans over $19.8\%$ of the time. Results are better than or comparable to state-of-the-art results on the image and sentence retrieval tasks for methods using similar visual features.

研究动机与目标

开发一种双向模型，能够从视觉输入生成新颖的图像字幕，并从文本描述中重建视觉特征。
解决先前模型无法执行逆映射或从图像生成新句子的局限性。
通过引入循环视觉记忆机制，提升在句子生成过程中对视觉概念的长期记忆能力。
在图像字幕生成、图像检索与句子检索任务中均实现当前最优性能。
在直接对比中评估生成字幕与人工编写字幕的人工偏好。

提出的方法

该模型使用循环神经网络（RNN）将图像特征编码为一种随生成或处理单词而动态演化的视觉记忆。
提出一种新型的循环视觉记忆组件，能够从单词序列中重建原始视觉特征，从而实现双向映射。
模型端到端训练，以最大化真实字幕的似然概率，同时最小化原始与重建视觉特征之间的重构误差。
在图像到文本生成任务中，视觉记忆以图像特征初始化，并在每个解码步骤中使用词嵌入进行更新。
在文本到图像重构任务中，视觉记忆以零向量初始化，并在处理每个单词时使用 RNN 的隐藏状态进行更新。
在检索任务中，同时使用图像给定条件下的字幕似然性（T）与视觉特征重构误差（I）进行排序。

实验结果

研究问题

RQ1单一深度学习模型是否能够从视觉输入生成新颖且连贯的图像字幕，同时从文本中重建视觉特征？
RQ2循环视觉记忆机制是否能改善序列生成过程中对视觉概念的长期保持能力？
RQ3在人工偏好评估中，该模型生成字幕的表现与人工标注字幕相比如何？
RQ4该模型是否能使用相同的视觉特征在图像与句子检索任务中均达到当前最优性能？
RQ5将字幕似然性与视觉特征重构误差相结合，是否能提升检索性能，优于单独使用任一指标？

主要发现

该模型在图像字幕生成任务中达到当前最优性能，在 MS COCO 数据集上，人工偏好测试中其生成字幕在 19.8% 的比较中超过人工编写字幕。
在 PASCAL 1K 数据集上，该模型在图像字幕生成任务的 BLEU 与 METEOR 指标上均达到 SOTA 水平。
在图像与句子检索任务中，该模型性能与先前最优方法相当或更优，尤其在使用相同视觉特征（如 DECAF 特征）时表现更佳。
在检索任务中，字幕似然性与视觉特征重构误差的组合（T+I）优于单独使用任一指标，显著提升召回率并降低中位数/平均排名。
该模型展现出强大的双向能力：使用相同架构与参数，既能从图像生成新颖字幕，也能从描述中重建视觉特征。
循环视觉记忆机制使模型能够维持并持续更新长期视觉表征，从而提升字幕生成的连贯性与准确性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。