QUICK REVIEW

[论文解读] CNN+CNN: Convolutional Decoders for Image Captioning

Qingzhong Wang, Antoni B. Chan|arXiv (Cornell University)|May 23, 2018

Multimodal Machine Learning Applications参考文献 34被引用 70

一句话总结

本文提出一个 CNN+CNN 框架，用卷积解码器替代 RNN 解码器进行图像字幕生成，在 BLEU/METEOR/CIDEr 评分上具有竞争力，并且训练速度更快，特别是在分层注意力下。

ABSTRACT

Image captioning is a challenging task that combines the field of computer vision and natural language processing. A variety of approaches have been proposed to achieve the goal of automatically describing an image, and recurrent neural network (RNN) or long-short term memory (LSTM) based models dominate this field. However, RNNs or LSTMs cannot be calculated in parallel and ignore the underlying hierarchical structure of a sentence. In this paper, we propose a framework that only employs convolutional neural networks (CNNs) to generate captions. Owing to parallel computing, our basic model is around 3 times faster than NIC (an LSTM-based model) during training time, while also providing better results. We conduct extensive experiments on MSCOCO and investigate the influence of the model width and depth. Compared with LSTM-based models that apply similar attention mechanisms, our proposed models achieves comparable scores of BLEU-1,2,3,4 and METEOR, and higher scores of CIDEr. We also test our model on the paragraph annotation dataset, and get higher CIDEr score compared with hierarchical LSTMs

研究动机与目标

推动用基于 CNN 的解码器替代基于 RNN 的解码器来实现图像字幕生成以实现并行计算。
提出一个将视觉 CNN 与语言 CNN 通过注意力机制连接起来的 CNN+CNN 架构。
引入一个分层注意力模块以改进图像区域与语言概念之间的对齐。
系统性研究语言 CNN 的宽度、深度和注意力对字幕质量的影响。
在 MSCOCO、Flickr30k 及段落注释数据集（PAD）上展示性能并与最先进方法进行比较。

提出的方法

使用基于 VGG-16 的视觉模块（不包含全连接层）提取图像特征。
用因果、门控卷积层（GLU）来建模上下文的语言 CNN 来表示句子。
通过图像特征与语言概念之间的点积注意力来形成被关注的特征，引入注意力模块。
使用一个预测模块将注意力特征与语言概念融合以通过 softmax 输出预测下一个单词。
可选地应用分层注意力，将低层语言 CNN 的注意力图传递到更高层以 refine 指导。
训练采用交叉熵损失加 L2 正则化；推理为前馈，采用贪心词选择。

实验结果

研究问题

RQ1CNN 基于解码器能否在图像字幕生成任务中匹配或超过基于 RNN/LSTM 的解码器？
RQ2分层注意力是否改善视觉区域与语言概念之间的对齐，从而提升字幕质量？
RQ3语言 CNN 的宽度、深度和核大小如何影响字幕生成性能和所需感受野？
RQ4与 NIC 相比，CNN+CNN 框架的训练是否更快，同时保持竞争性指标？
RQ5在段落级字幕与句子级数据集相比，该方法的表现如何？

主要发现

模型	BLEU-1	BLEU-2	BLEU-3	BLEU-4	METEOR	ROUGE-L	CIDEr
DeepVS	0.625	0.450	0.321	0.230	0.195	-	0.660
m-RNN	0.670	0.490	0.350	0.250	-	-	-
NIC	0.666	0.461	0.329	0.246	-	-	-
LRCN	0.697	0.519	0.380	0.278	0.229	0.508	0.837
Hard-ATT	0.718	0.504	0.357	0.250	0.230	-	-
Soft-ATT	0.707	0.492	0.344	0.243	0.239	-	-
Ours (w/o hier-att)	0.688	0.513	0.370	0.265	0.234	0.507	0.839
Ours (w/ hier-att)	0.685	0.511	0.369	0.267	0.234	0.510	0.844

在 MSCOCO 和 Flickr30k 上，使用或不使用分层注意力的 CNN+CNN 在 BLEU、METEOR、ROUGE-L 和 CIDEr 评分上具有竞争力，使用分层注意力时 CIDEr 有提升。
训练速度提升：在相同硬件条件下，6 层无分层注意力的 CNN 训练大约快 3 倍于 NIC。
分层注意力相较于非分层模型稳定提升分数，尤其在 MSCOCO 和 Flickr30k 上提升 CIDEr 和 METEOR。
对 MSCOCO/Flickr30k 的核宽度和深度实验表明，6 层网络、核大小为 3 且含分层注意力时有效；增大核大小对非分层结构有利。
在 PAD 数据集上，较长的字幕更能从核宽度调整中受益，核大小为 7 时获得 CIDEr 提升。
可视注意力图显示对预测词对应的图像区域有意义的聚焦，同时揭示多目标场景中的权衡。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。