Skip to main content
QUICK REVIEW

[论文解读] Simple Image Description Generator via a Linear Phrase-Based Approach

Rémi Lebret, Pedro O. Pinheiro|arXiv (Cornell University)|Dec 29, 2014
Multimodal Machine Learning Applications参考文献 12被引用 29
一句话总结

本文提出了一种简单、非循环的图像字幕生成模型,通过首先使用线性多模态嵌入预测相关的名词、动词和介词短语,然后利用受约束的三元语法语言模型将它们组合起来生成描述。尽管结构简单,该方法在 COCO 数据集上仍取得了具有竞争力的 BLEU 分数,达到 0.70(B-1)、0.46(B-2)、0.30(B-3)和 0.20(B-4),接近人类标注者的一致性水平。

ABSTRACT

Generating a novel textual description of an image is an interesting problem that connects computer vision and natural language processing. In this paper, we present a simple model that is able to generate descriptive sentences given a sample image. This model has a strong focus on the syntax of the descriptions. We train a purely bilinear model that learns a metric between an image representation (generated from a previously trained Convolutional Neural Network) and phrases that are used to described them. The system is then able to infer phrases from a given image sample. Based on caption syntax statistics, we propose a simple language model that can produce relevant descriptions for a given test image using the phrases inferred. Our approach, which is considerably simpler than state-of-the-art models, achieves comparable results on the recently release Microsoft COCO dataset.

研究动机与目标

  • 开发一种比复杂循环神经网络架构更简单的图像字幕生成模型替代方案。
  • 通过短语级表示聚焦句法结构,提升图像字幕生成质量。
  • 仅使用双线性图像-短语嵌入和受约束语言模型,实现具有竞争力的性能。
  • 证明非循环、线性方法可达到甚至超越更复杂深度学习架构的性能。

提出的方法

  • 模型使用预训练的 CNN 提取图像特征,并通过双线性变换将这些特征投影到共享的多模态空间中。
  • 短语(名词、动词、介词)表示为构成其的词向量的平均值,这些向量基于维基百科共现统计学习得到。
  • 线性多模态模型通过带有参数 U 和 V 的双线性函数,学习将图像特征映射到短语表示。
  • 推理阶段,根据与图像嵌入的相似度,选择前 20 个名词、10 个动词和 5 个介词短语。
  • 受约束的三元语法语言模型将预测的短语组合成连贯的句子,低概率(<0.01)的转移被过滤。
  • 最终句子选择通过图像嵌入与生成句子中短语向量平均值之间的点积完成,按相关性对候选句子进行排序。

实验结果

研究问题

  • RQ1非循环、线性模型是否能在不使用 RNN 或复杂序列建模的情况下实现具有竞争力的图像字幕性能?
  • RQ2使用双线性嵌入的短语级方法在图像字幕的多模态表征学习中效果如何?
  • RQ3句法结构与统计语言建模在多大程度上可以弥补缺乏循环架构的不足?
  • RQ4简单短语级模型在 COCO 数据集上能多接近人类水平的字幕一致性?

主要发现

  • 该模型在 COCO 测试集上达到 BLEU-1 为 0.70,BLEU-2 为 0.46,BLEU-3 为 0.30,BLEU-4 为 0.20,优于多个先前方法。
  • 该模型性能非常接近人类标注者的一致性得分(0.68 B-1,0.45 B-2,0.30 B-3,0.20 B-4),表明其具有高度的语义相关性。
  • 使用受约束的三元语法规则显著减少了生成句子的数量,同时过滤掉了语义上不合理的组合。
  • 双线性多模态嵌入模型有效捕捉了图像与短语之间的关系,而无需端到端训练深度循环网络。
  • 即使架构复杂度极低,该系统仍能成功生成连贯且描述性强的句子,证明了短语级组合与句法感知建模的强大能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。