QUICK REVIEW

[论文解读] Deep Captioning with Multimodal Recurrent Neural Networks (m-RNN)

Junhua Mao, Wei Xu|arXiv (Cornell University)|Dec 20, 2014

Multimodal Machine Learning Applications参考文献 39被引用 649

一句话总结

本文提出了一种多模态循环神经网络（m-RNN），通过使用深度卷积神经网络（CNN）处理图像和使用深度循环神经网络（RNN）处理文本，联合建模图像与句子表征，并引入多模态融合层以实现端到端学习。该模型在四个基准数据集上的图像字幕生成与检索任务中均取得了最先进性能，显著优于先前方法在生成与检索准确率方面的表现。

ABSTRACT

In this paper, we present a multimodal Recurrent Neural Network (m-RNN) model for generating novel image captions. It directly models the probability distribution of generating a word given previous words and an image. Image captions are generated by sampling from this distribution. The model consists of two sub-networks: a deep recurrent neural network for sentences and a deep convolutional network for images. These two sub-networks interact with each other in a multimodal layer to form the whole m-RNN model. The effectiveness of our model is validated on four benchmark datasets (IAPR TC-12, Flickr 8K, Flickr 30K and MS COCO). Our model outperforms the state-of-the-art methods. In addition, we apply the m-RNN model to retrieval tasks for retrieving images or sentences, and achieves significant performance improvement over the state-of-the-art methods which directly optimize the ranking objective function for retrieval. The project page of this work is: www.stat.ucla.edu/~junhua.mao/m-RNN.html .

研究动机与目标

开发一种统一的深度学习框架，以超越基于检索的方法，为图像生成新颖且描述性的字幕。
通过在共享嵌入空间中联合建模视觉与语言特征，提升图像与句子的检索性能。
实现能够捕捉空间视觉上下文与序列语言结构的多模态系统的端到端训练。
在多样化的基准数据集上展示m-RNN模型在字幕生成与检索任务中的有效性。
探索后处理技术（如共识重排序）以进一步提升字幕质量。

提出的方法

m-RNN模型整合了深度卷积神经网络（VGG-16）用于图像特征提取，以及带有词嵌入的深度循环神经网络用于句子建模。
多模态融合层通过将视觉与隐藏语言表征联合投影到共享语义空间，实现视觉与语言表征的融合。
模型采用对数似然目标函数进行端到端训练，以最大化给定图像下真实字幕的概率。
通过时间反向传播与卷积层联合优化所有网络组件。
在生成后应用共识重排序，利用训练集中最近邻的字幕提升生成字幕质量。
重排序过程中，通过计算生成假设与k个最近邻参考字幕之间的BLEU或CIDEr得分，衡量句子相似度。

实验结果

研究问题

RQ1多模态RNN架构是否能够联合建模视觉与语言序列，以生成新颖且准确的图像字幕？
RQ2在字幕生成质量与多样性方面，m-RNN模型相较于基于检索的方法表现如何？
RQ3与最先进基于嵌入的方法相比，m-RNN模型在图像与句子检索性能上的提升程度如何？
RQ4利用最近邻字幕进行共识重排序是否能进一步提升生成字幕的质量？
RQ5将m-RNN模型中提取的优化图像特征引入下游任务，对字幕生成与检索性能有何影响？

主要发现

m-RNN模型在图像字幕生成任务中达到最先进性能，在IAPR TC-12、Flickr 8K、Flickr 30K和MS COCO数据集上均优于先前方法。
在MS COCO验证集上，m-RNN模型的CIDEr得分达到0.842，显著高于此前方法。
在应用基于最近邻的共识重排序后，MS COCO验证集的CIDEr得分提升至0.938，测试服务器上的得分达到0.917。
共识重排序后，验证集的BLEU-4得分提升3.5分，测试集提升3.3分。
使用真实字幕进行的最优重排序性能（oracle reranking）在验证集上达到CIDEr得分1.272，表明仍有显著提升空间。
m-RNN模型提取的优化图像特征能更准确地捕捉视觉语义，例如在原始VGG-16特征失效的图像中正确识别出香蕉等物体。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。