Skip to main content
QUICK REVIEW

[论文解读] Phrase-based Image Captioning

Rémi Lebret, Pedro O. Pinheiro|arXiv (Cornell University)|Feb 12, 2015
Multimodal Machine Learning Applications参考文献 28被引用 50
一句话总结

该论文提出了一种基于短语的图像字幕生成模型,利用双线性嵌入从图像特征中预测语义相关的名词、动词和介词短语,再通过三元语法约束语言模型生成流畅的句子。尽管结构简单,该方法在Flickr30k和COCO数据集上取得了具有竞争力的BLEU分数,无需使用循环神经网络即可生成多样且未见过的描述。

ABSTRACT

Generating a novel textual description of an image is an interesting problem that connects computer vision and natural language processing. In this paper, we present a simple model that is able to generate descriptive sentences given a sample image. This model has a strong focus on the syntax of the descriptions. We train a purely bilinear model that learns a metric between an image representation (generated from a previously trained Convolutional Neural Network) and phrases that are used to described them. The system is then able to infer phrases from a given image sample. Based on caption syntax statistics, we propose a simple language model that can produce relevant descriptions for a given test image using the phrases inferred. Our approach, which is considerably simpler than state-of-the-art models, achieves comparable results in two popular datasets for the task: Flickr30k and the recently proposed Microsoft COCO.

研究动机与目标

  • 开发一种比复杂循环神经网络模型更简单的图像字幕生成替代方法。
  • 通过短语级预测聚焦句法结构,提升句子生成质量。
  • 通过组合学习到的短语而非记忆训练样本,生成多样且未见过的描述。
  • 通过微调预训练词向量,将短语表征与视觉特征对齐。
  • 在标准基准数据集(Flickr30k 和 COCO)上,使用标准指标(如 BLEU)评估性能。

提出的方法

  • 双线性模型学习图像特征(来自预训练CNN)与短语表征(词向量平均值)之间的联合嵌入空间。
  • 短语表示为大规模语料库(维基百科)中词向量的平均值,随后通过视觉数据进行微调。
  • 推理阶段,模型使用学习到的度量方法为测试图像检索得分最高的短语。
  • 三元语法约束语言模型利用束搜索从预测的短语集合中生成句法上合理的句子。
  • 重排序步骤选择在学习到的嵌入空间中与图像最接近的句子,以提升准确性。
  • 在训练过程中对短语表征进行微调,使其与视觉语义对齐,从而改善语义对齐性。

实验结果

研究问题

  • RQ1无循环神经网络的情况下,基于短语的方法能否实现具有竞争力的字幕生成性能?
  • RQ2双线性模型在学习图像与短语之间共享嵌入空间方面的有效性如何?
  • RQ3三元语法约束语言模型在从预测短语中生成流畅且多样的句子方面有多高效?
  • RQ4使用视觉数据对短语表征进行微调是否能提升字幕质量与语义准确性?
  • RQ5与基于RNN的模型相比,该方法生成字幕的多样性在多大程度上减少了对训练样本的记忆?

主要发现

  • 该模型在Flickr30k和COCO数据集上均取得了具有竞争力的BLEU分数,与最先进RNN模型相当。
  • 在Flickr30k上仅有1%的生成字幕出现在训练集中,在COCO上为9.7%,表明具有强大的泛化能力与多样性。
  • 在两个数据集上,通过视觉数据微调短语表征后性能提升了约50%,凸显其必要性。
  • 微调后,'a grey cat'等短语的最近邻变为其他颜色的猫,表明表征实现了视觉对齐。
  • 该模型成功生成了训练集中未见的新颖、句法正确的句子,避免了RNN模型常见的过拟合问题。
  • 基于学习到的图像-短语度量进行重排序,通过选择语义最匹配的输出,提升了最终句子质量。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。