Skip to main content
QUICK REVIEW

[论文解读] Reconstruction Network for Video Captioning

Bairui Wang, Lin Ma|arXiv (Cornell University)|Mar 30, 2018
Multimodal Machine Learning Applications参考文献 50被引用 41
一句话总结

RecNet 引入一个编码器-解码器-重构器,利用双向的视频到字幕与字幕到视频流,提升视频字幕的准确性。

ABSTRACT

In this paper, the problem of describing visual contents of a video sequence with natural language is addressed. Unlike previous video captioning work mainly exploiting the cues of video contents to make a language description, we propose a reconstruction network (RecNet) with a novel encoder-decoder-reconstructor architecture, which leverages both the forward (video to sentence) and backward (sentence to video) flows for video captioning. Specifically, the encoder-decoder makes use of the forward flow to produce the sentence description based on the encoded video semantic features. Two types of reconstructors are customized to employ the backward flow and reproduce the video features based on the hidden state sequence generated by the decoder. The generation loss yielded by the encoder-decoder and the reconstruction loss introduced by the reconstructor are jointly drawn into training the proposed RecNet in an end-to-end fashion. Experimental results on benchmark datasets demonstrate that the proposed reconstructor can boost the encoder-decoder models and leads to significant gains in video caption accuracy.

研究动机与目标

  • 推动自动视频字幕生成,解决仅前向的编码器-解码器模型的局限性。
  • 提出一个重构模块以利用从字幕到视频的后向流动。
  • 集成全局与局部结构重构器以保留视频语义。
  • 端到端训练,结合前向字幕生成损失与后向重构损失。
  • 在基准数据集 MSR-VTT 和 MSVD 上证明提升。

提出的方法

  • 使用 Inception-V4 将视频帧编码为帧特征。
  • 使用基于注意力的 LSTM 解码器从编码的视频特征生成字幕。
  • 引入一个重构器,利用解码器隐藏状态重现原始视频特征。
  • 提供两种重构器变体:全局结构重构器(均值池化)和局部结构重构器(注意力引导)。
  • 以联合损失训练:编码器-解码器似然性加上通过 lambda 加权的重构损失。
  • 在 MSR-VTT 和 MSVD 上使用 BLEU-4、METEOR、ROUGE-L、CIDEr 进行评估。

实验结果

研究问题

  • RQ1在仅前向的编码器-解码器模型之上,加入后向字幕到视频重构损失是否能提升视频字幕质量?
  • RQ2全局结构重构器与局部结构重构器对字幕质量的影响是否不同?
  • RQ3权衡参数 lambda 对性能的影响如何?
  • RQ4与基线模型相比,RecNet 的不同变体在 MSR-VTT 与 MSVD 上的表现如何?

主要发现

模型BLEU-4METEORROUGE-LCIDEr
RecNet global (MSR-VTT)38.326.259.141.7
RecNet local (MSR-VTT)39.126.659.342.7
SA-LSTM (Inception-V4)36.325.558.339.9
SA-LSTM (VGG19)35.625.4--
RecNet global (S2VT)42.932.368.569.3
RecNet local (S2VT)43.732.768.669.8
RecNet global (SA-LSTM)51.134.069.479.7
RecNet local (SA-LSTM)52.334.169.880.3
  • RecNet 使用全局或局部重构器在 MSR-VTT 上在 BLEU-4、METEOR、ROUGE-L 和 CIDEr 上均优于标准的编码器-解码器模型。
  • 采用 Inception-V4 作为编码器、SA-LSTM 解码器的 RecNet 相较于若干基线获得更高分数。
  • 局部重构器通常比全局变体获得略高的结果,因为更好地保留了时间动态。
  • 在 MSR-VTT 上,RecNet 配合 SA-LSTM 的 BLEU-4 为 39.1、CIDEr 为 42.7(局部;全局为 BLEU-4 38.3、CIDEr 41.7)。
  • 在 MSVD 上,RecNet 变体与 SA-LSTM 在列出模型中表现最佳(例如 RecNet 局部 SA-LSTM:BLEU-4 52.3,CIDEr 80.3)。
  • lambda 控制前向似然与后向重构之间的平衡;适当的非零 lambda 相较于 lambda=0 可提升性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。