[论文解读] CNN+CNN: Convolutional Decoders for Image Captioning
本文提出一个 CNN+CNN 框架,用卷积解码器替代 RNN 解码器进行图像字幕生成,在 BLEU/METEOR/CIDEr 评分上具有竞争力,并且训练速度更快,特别是在分层注意力下。
Image captioning is a challenging task that combines the field of computer vision and natural language processing. A variety of approaches have been proposed to achieve the goal of automatically describing an image, and recurrent neural network (RNN) or long-short term memory (LSTM) based models dominate this field. However, RNNs or LSTMs cannot be calculated in parallel and ignore the underlying hierarchical structure of a sentence. In this paper, we propose a framework that only employs convolutional neural networks (CNNs) to generate captions. Owing to parallel computing, our basic model is around 3 times faster than NIC (an LSTM-based model) during training time, while also providing better results. We conduct extensive experiments on MSCOCO and investigate the influence of the model width and depth. Compared with LSTM-based models that apply similar attention mechanisms, our proposed models achieves comparable scores of BLEU-1,2,3,4 and METEOR, and higher scores of CIDEr. We also test our model on the paragraph annotation dataset, and get higher CIDEr score compared with hierarchical LSTMs
研究动机与目标
- 推动用基于 CNN 的解码器替代基于 RNN 的解码器来实现图像字幕生成以实现并行计算。
- 提出一个将视觉 CNN 与语言 CNN 通过注意力机制连接起来的 CNN+CNN 架构。
- 引入一个分层注意力模块以改进图像区域与语言概念之间的对齐。
- 系统性研究语言 CNN 的宽度、深度和注意力对字幕质量的影响。
- 在 MSCOCO、Flickr30k 及段落注释数据集(PAD)上展示性能并与最先进方法进行比较。
提出的方法
- 使用基于 VGG-16 的视觉模块(不包含全连接层)提取图像特征。
- 用因果、门控卷积层(GLU)来建模上下文的语言 CNN 来表示句子。
- 通过图像特征与语言概念之间的点积注意力来形成被关注的特征,引入注意力模块。
- 使用一个预测模块将注意力特征与语言概念融合以通过 softmax 输出预测下一个单词。
- 可选地应用分层注意力,将低层语言 CNN 的注意力图传递到更高层以 refine 指导。
- 训练采用交叉熵损失加 L2 正则化;推理为前馈,采用贪心词选择。
实验结果
研究问题
- RQ1CNN 基于解码器能否在图像字幕生成任务中匹配或超过基于 RNN/LSTM 的解码器?
- RQ2分层注意力是否改善视觉区域与语言概念之间的对齐,从而提升字幕质量?
- RQ3语言 CNN 的宽度、深度和核大小如何影响字幕生成性能和所需感受野?
- RQ4与 NIC 相比,CNN+CNN 框架的训练是否更快,同时保持竞争性指标?
- RQ5在段落级字幕与句子级数据集相比,该方法的表现如何?
主要发现
| 模型 | BLEU-1 | BLEU-2 | BLEU-3 | BLEU-4 | METEOR | ROUGE-L | CIDEr |
|---|---|---|---|---|---|---|---|
| DeepVS | 0.625 | 0.450 | 0.321 | 0.230 | 0.195 | - | 0.660 |
| m-RNN | 0.670 | 0.490 | 0.350 | 0.250 | - | - | - |
| NIC | 0.666 | 0.461 | 0.329 | 0.246 | - | - | - |
| LRCN | 0.697 | 0.519 | 0.380 | 0.278 | 0.229 | 0.508 | 0.837 |
| Hard-ATT | 0.718 | 0.504 | 0.357 | 0.250 | 0.230 | - | - |
| Soft-ATT | 0.707 | 0.492 | 0.344 | 0.243 | 0.239 | - | - |
| Ours (w/o hier-att) | 0.688 | 0.513 | 0.370 | 0.265 | 0.234 | 0.507 | 0.839 |
| Ours (w/ hier-att) | 0.685 | 0.511 | 0.369 | 0.267 | 0.234 | 0.510 | 0.844 |
- 在 MSCOCO 和 Flickr30k 上,使用或不使用分层注意力的 CNN+CNN 在 BLEU、METEOR、ROUGE-L 和 CIDEr 评分上具有竞争力,使用分层注意力时 CIDEr 有提升。
- 训练速度提升:在相同硬件条件下,6 层无分层注意力的 CNN 训练大约快 3 倍于 NIC。
- 分层注意力相较于非分层模型稳定提升分数,尤其在 MSCOCO 和 Flickr30k 上提升 CIDEr 和 METEOR。
- 对 MSCOCO/Flickr30k 的核宽度和深度实验表明,6 层网络、核大小为 3 且含分层注意力时有效;增大核大小对非分层结构有利。
- 在 PAD 数据集上,较长的字幕更能从核宽度调整中受益,核大小为 7 时获得 CIDEr 提升。
- 可视注意力图显示对预测词对应的图像区域有意义的聚焦,同时揭示多目标场景中的权衡。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。