Skip to main content
QUICK REVIEW

[论文解读] CNN+CNN: Convolutional Decoders for Image Captioning

Qingzhong Wang, Antoni B. Chan|arXiv (Cornell University)|May 23, 2018
Multimodal Machine Learning Applications参考文献 34被引用 70
一句话总结

本文提出一个 CNN+CNN 框架,用卷积解码器替代 RNN 解码器进行图像字幕生成,在 BLEU/METEOR/CIDEr 评分上具有竞争力,并且训练速度更快,特别是在分层注意力下。

ABSTRACT

Image captioning is a challenging task that combines the field of computer vision and natural language processing. A variety of approaches have been proposed to achieve the goal of automatically describing an image, and recurrent neural network (RNN) or long-short term memory (LSTM) based models dominate this field. However, RNNs or LSTMs cannot be calculated in parallel and ignore the underlying hierarchical structure of a sentence. In this paper, we propose a framework that only employs convolutional neural networks (CNNs) to generate captions. Owing to parallel computing, our basic model is around 3 times faster than NIC (an LSTM-based model) during training time, while also providing better results. We conduct extensive experiments on MSCOCO and investigate the influence of the model width and depth. Compared with LSTM-based models that apply similar attention mechanisms, our proposed models achieves comparable scores of BLEU-1,2,3,4 and METEOR, and higher scores of CIDEr. We also test our model on the paragraph annotation dataset, and get higher CIDEr score compared with hierarchical LSTMs

研究动机与目标

  • 推动用基于 CNN 的解码器替代基于 RNN 的解码器来实现图像字幕生成以实现并行计算。
  • 提出一个将视觉 CNN 与语言 CNN 通过注意力机制连接起来的 CNN+CNN 架构。
  • 引入一个分层注意力模块以改进图像区域与语言概念之间的对齐。
  • 系统性研究语言 CNN 的宽度、深度和注意力对字幕质量的影响。
  • 在 MSCOCO、Flickr30k 及段落注释数据集(PAD)上展示性能并与最先进方法进行比较。

提出的方法

  • 使用基于 VGG-16 的视觉模块(不包含全连接层)提取图像特征。
  • 用因果、门控卷积层(GLU)来建模上下文的语言 CNN 来表示句子。
  • 通过图像特征与语言概念之间的点积注意力来形成被关注的特征,引入注意力模块。
  • 使用一个预测模块将注意力特征与语言概念融合以通过 softmax 输出预测下一个单词。
  • 可选地应用分层注意力,将低层语言 CNN 的注意力图传递到更高层以 refine 指导。
  • 训练采用交叉熵损失加 L2 正则化;推理为前馈,采用贪心词选择。

实验结果

研究问题

  • RQ1CNN 基于解码器能否在图像字幕生成任务中匹配或超过基于 RNN/LSTM 的解码器?
  • RQ2分层注意力是否改善视觉区域与语言概念之间的对齐,从而提升字幕质量?
  • RQ3语言 CNN 的宽度、深度和核大小如何影响字幕生成性能和所需感受野?
  • RQ4与 NIC 相比,CNN+CNN 框架的训练是否更快,同时保持竞争性指标?
  • RQ5在段落级字幕与句子级数据集相比,该方法的表现如何?

主要发现

模型BLEU-1BLEU-2BLEU-3BLEU-4METEORROUGE-LCIDEr
DeepVS0.6250.4500.3210.2300.195-0.660
m-RNN0.6700.4900.3500.250---
NIC0.6660.4610.3290.246---
LRCN0.6970.5190.3800.2780.2290.5080.837
Hard-ATT0.7180.5040.3570.2500.230--
Soft-ATT0.7070.4920.3440.2430.239--
Ours (w/o hier-att)0.6880.5130.3700.2650.2340.5070.839
Ours (w/ hier-att)0.6850.5110.3690.2670.2340.5100.844
  • 在 MSCOCO 和 Flickr30k 上,使用或不使用分层注意力的 CNN+CNN 在 BLEU、METEOR、ROUGE-L 和 CIDEr 评分上具有竞争力,使用分层注意力时 CIDEr 有提升。
  • 训练速度提升:在相同硬件条件下,6 层无分层注意力的 CNN 训练大约快 3 倍于 NIC。
  • 分层注意力相较于非分层模型稳定提升分数,尤其在 MSCOCO 和 Flickr30k 上提升 CIDEr 和 METEOR。
  • 对 MSCOCO/Flickr30k 的核宽度和深度实验表明,6 层网络、核大小为 3 且含分层注意力时有效;增大核大小对非分层结构有利。
  • 在 PAD 数据集上,较长的字幕更能从核宽度调整中受益,核大小为 7 时获得 CIDEr 提升。
  • 可视注意力图显示对预测词对应的图像区域有意义的聚焦,同时揭示多目标场景中的权衡。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。