QUICK REVIEW

[论文解读] Boosting Image Captioning with Attributes

Ting Yao, Yingwei Pan|arXiv (Cornell University)|Nov 5, 2016

Multimodal Machine Learning Applications参考文献 22被引用 38

一句话总结

本文提出LSTM-A，一种新颖的图像字幕生成框架，通过在端到端可训练的RNN架构中联合整合高层图像属性与深度卷积特征，提升字幕生成质量。通过探索多种将图像表征和属性输入LSTM的方法（如早期融合、晚期融合或逐步注入），该方法实现了最先进性能，在使用GoogleNet时于COCO测试集上达到25.2% METEOR和98.6% CIDEr-D，并在官方COCO字幕排行榜中位列第一。

ABSTRACT

Automatically describing an image with a natural language has been an emerging challenge in both fields of computer vision and natural language processing. In this paper, we present Long Short-Term Memory with Attributes (LSTM-A) - a novel architecture that integrates attributes into the successful Convolutional Neural Networks (CNNs) plus Recurrent Neural Networks (RNNs) image captioning framework, by training them in an end-to-end manner. To incorporate attributes, we construct variants of architectures by feeding image representations and attributes into RNNs in different ways to explore the mutual but also fuzzy relationship between them. Extensive experiments are conducted on COCO image captioning dataset and our framework achieves superior results when compared to state-of-the-art deep models. Most remarkably, we obtain METEOR/CIDEr-D of 25.2%/98.6% on testing data of widely used and publicly available splits in (Karpathy & Fei-Fei, 2015) when extracting image representations by GoogleNet and achieve to date top-1 performance on COCO captioning Leaderboard.

研究动机与目标

通过引入超越原始图像特征的高层语义属性作为补充知识，提升图像字幕生成质量。
探究如何以及何时将属性和图像表征最佳地整合到RNN解码器中，以改善句子生成。
探索在属性和图像特征注入LSTM的位置与时机上有所不同的网络架构变体。
通过端到端训练，在COCO图像字幕基准上实现最先进性能。
证明属性能够提升生成字幕的描述准确性和语义丰富度。

提出的方法

提出LSTM-A，一种修改后的LSTM解码器，可同时接收来自CNN（如GoogleNet或ResNet-152）的图像特征和高层属性作为输入。
设计五种不同的架构变体（LSTM-A 1至5），其在将图像特征和属性输入LSTM的顺序与时机上存在差异，例如在每个时间步同时注入或按顺序注入。
采用多实例学习（MIL）方法从图像中检测高层属性，如“红色”、“狗”、“飞行”、“手持”。
使用标准的序列到序列学习与交叉熵损失进行词预测，对整个模型进行端到端训练。
推理阶段采用束搜索解码，束大小k=3，该参数基于在k ∈ {1,2,3,4,5}范围内的性能评估结果选定。
使用COCO数据集的标准训练/验证/测试划分，并采用标准指标进行评估：BLEU、METEOR、CIDEr-D、ROUGE和SPICE。

实验结果

研究问题

RQ1高层图像属性的整合在多大程度上提升了生成字幕的质量与相关性？
RQ2在基于RNN的字幕生成模型中，融合图像表征与属性的最优架构配置是什么？
RQ3输入注入的时机与顺序（如先图像后属性 vs. 先属性后图像）是否显著影响字幕生成性能？
RQ4与仅使用CNN特征的模型相比，属性是否有助于生成更富描述性且语义准确的字幕？
RQ5属性在多大程度上促成了在COCO图像字幕排行榜上达到最先进性能？

主要发现

LSTM-A 3在所有变体中取得最高的BLEU@1和METEOR得分，证明其特定融合策略的有效性。
LSTM-A 5在CIDEr-D、ROUGE和SPICE指标上表现最佳，表明其生成的字幕更具流畅性且与参考字幕在语义上更匹配。
使用GoogleNet特征时，模型在COCO测试集上达到25.2% METEOR和98.6% CIDEr-D，创下提交时的新SOTA纪录。
当使用ResNet-152特征时，CIDEr-D得分提升至104.9%（c5）和105.3%（c40），进一步优化性能。
该模型在官方COCO字幕排行榜中排名第一，优于所有已发表的先前方法。
定性分析表明，LSTM-A通过正确整合检测到的属性（如“狗”、“红色”、“手持”）生成了更精确、更富描述性的字幕。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。