QUICK REVIEW

[论文解读] Language Models for Image Captioning: The Quirks and What Works

Jacob Devlin, Hao Cheng|arXiv (Cornell University)|May 7, 2015

Multimodal Machine Learning Applications参考文献 23被引用 119

一句话总结

本论文在使用相同最先进CNN特征的前提下，对比了图像字幕生成中的语言建模方法，发现尽管多模态循环神经网络（MRNN）的BLEU得分更高，但采用深度多模态相似度模型（DMSM）重排序的两阶段最大熵语言模型（ME LM）生成的字幕更具新颖性且更受人类青睐。D-ME+DMSM系统在COCO数据集上取得了新的SOTA BLEU得分，但人类评估显示其表现优于自动指标，凸显了自动评估与人类判断之间的脱节。

ABSTRACT

Two recent approaches have achieved state-of-the-art results in image captioning. The first uses a pipelined process where a set of candidate words is generated by a convolutional neural network (CNN) trained on images, and then a maximum entropy (ME) language model is used to arrange these words into a coherent sentence. The second uses the penultimate activation layer of the CNN as input to a recurrent neural network (RNN) that then generates the caption sequence. In this paper, we compare the merits of these different language modeling approaches for the first time by using the same state-of-the-art CNN as input. We examine issues in the different approaches, including linguistic irregularities, caption repetition, and data set overlap. By combining key aspects of the ME and RNN methods, we achieve a new record performance over previously published results on the benchmark COCO dataset. However, the gains we see in BLEU do not translate to human judgments.

研究动机与目标

比较在相同最先进CNN特征条件下，不同语言建模方法（特别是ME LM与RNN）在图像字幕生成中的有效性。
探究为何自动指标（如BLEU）在图像字幕任务中可能与人类判断不一致。
评估字幕新颖性与数据集多样性在模型性能中的作用，尤其是在句法结构新颖的图像上。
评估数据集重叠与语言不规则性对字幕生成质量的影响。
判断简单的检索方法（如k近邻）是否能在性能上与复杂的神经网络模型相媲美。

提出的方法

作者使用在COCO上微调过的16层VGGNet作为共享视觉编码器，为所有模型提取特征，确保比较中输入的一致性。
对于ME LM方法，从CNN特征中提取高于阈值（α=0.5）的词袋，并通过束搜索生成覆盖这些词的句子，同时动态剪枝已生成的词。
D-ME+DMSM系统利用深度多模态相似度模型（DMSM）对ME LM的n个最佳输出进行重排序，通过在共享向量空间中匹配图像与文本嵌入，提升语义相关性。
MRNN模型直接将门控循环神经网络（GRNN）基于最终CNN激活（fc7层）进行条件化，无需离散词检测，自回归地生成字幕。
k近邻基线方法根据图像特征相似度从训练集中检索最相似的字幕，作为性能对比的强基线。
性能通过COCO测试集上的BLEU得分、人类对字幕质量的判断，以及对字幕新颖性与重复性的分析进行评估。

实验结果

研究问题

RQ1当在相同CNN特征条件下，ME语言模型与基于RNN的模型在图像字幕生成中的表现如何比较？
RQ2为何MRNN的BLEU得分高于ME LM，却生成了更多重复且缺乏新颖性的字幕？
RQ3数据集重叠与字幕重复在多大程度上影响模型泛化能力与人类评估结果？
RQ4简单的k近邻检索方法是否能在COCO数据集上与复杂的神经网络字幕模型性能相当？
RQ5引入DMSM进行重排序是否能显著提升字幕质量，超越BLEU等自动指标的衡量？

主要发现

MRNN模型在完整COCO测试集上取得了25.7的BLEU得分，优于ME LM与D-ME+DMSM系统，自动指标表现更优。
当与MRNN结合时，D-ME+DMSM系统在COCO上取得了27.3的新SOTA BLEU得分，比此前发表结果高出1.6个BLEU点。
尽管BLEU得分更高，MRNN生成的重复字幕显著更多，其60.3%的输出出现在训练集中，而D-ME+DMSM仅为30.0%。
D-ME+DMSM系统生成了47.0%的唯一字幕，表明其新颖性更强，并在20%重叠最少（句法结构新颖）的图像上比MRNN高出2.1个BLEU点。
人类评估显示，D-ME+DMSM显著优于MRNN，表明人类对字幕质量的判断更青睐新颖性与泛化能力，而非高BLEU得分。
k近邻方法在BLEU（26.0）与人类判断方面均与MRNN表现相当，表明基于检索的系统可与复杂神经模型竞争。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。