QUICK REVIEW

[论文解读] Video captioning with recurrent networks based on frame- and video-level features and visual content classification

Rakshith Shetty, Jorma Laaksonen|arXiv (Cornell University)|Dec 9, 2015

Multimodal Machine Learning Applications参考文献 17被引用 19

一句话总结

该论文提出了一种使用循环神经网络的视频字幕生成系统，结合了帧级特征（通过预训练CNN从关键帧提取）、视频级特征（密集轨迹）和视觉内容分类器输出（80类SVM）以生成描述性字幕。主要贡献在于证明：将分类器输出作为LSTM初始输入，同时将密集轨迹特征作为持续输入，可在LSMDC 2015基准上取得最佳性能，且束搜索大小为1优于更大的束搜索大小，原因是减少了通用句子的生成。

ABSTRACT

In this paper, we describe the system for generating textual descriptions of short video clips using recurrent neural networks (RNN), which we used while participating in the Large Scale Movie Description Challenge 2015 in ICCV 2015. Our work builds on static image captioning systems with RNN based language models and extends this framework to videos utilizing both static image features and video-specific features. In addition, we study the usefulness of visual content classifiers as a source of additional information for caption generation. With experimental results we show that utilizing keyframe based features, dense trajectory video features and content classifier outputs together gives better performance than any one of them individually.

研究动机与目标

开发一种视频字幕生成系统，通过引入视频特有的时序特征，改进静态图像字幕生成方法。
探究在COCO数据集上预训练的视觉内容分类器是否能提升电影片段的字幕生成质量。
确定在LSMDC 2015挑战赛中，帧级、视频级和分类器输出特征的最佳架构配置。
评估推理束搜索大小对字幕质量和多样性的影响。

提出的方法

使用三个预训练CNN（VGG-16、VGG-19、GoogLeNet）提取关键帧特征，结合空间金字塔池化与平均/最大池化以增强鲁棒性。
通过15帧轨迹计算视频片段的密集轨迹特征，将其量化为1000维直方图，并与HOG、MBHx、MBHy和HOF描述子结合，形成5000维的视频特征。
在COCO 2014训练图像上训练80个二分类SVM分类器，以预测物体类别是否存在，为每个关键帧生成80维的类别隶属向量。
使用LSTM网络生成字幕，初始隐藏状态由SVM分类器输出初始化，同时在每个时间步持续输入视频特征（密集轨迹）。
应用基于规则的词汇翻译，将COCO预训练模型的输出与LSMDC词汇对齐，将如“man”或“person”等术语替换为“SOMEONE”。
在LSMDC 2015测试集上使用BLEU、METEOR、ROUGE和CIDEr指标评估模型，比较不同特征输入配置和束搜索大小下的性能。

实验结果

研究问题

RQ1将帧级特征、视频级特征和视觉内容分类器输出相结合，是否能显著提升视频字幕生成性能，优于仅使用单一特征类型？
RQ2在LSMDC 2015数据集中，使用在COCO上预训练的视觉内容分类器（SVM）是否对电影片段的字幕生成有实际帮助？
RQ3在基于LSTM的视频字幕模型中，特征输入（初始输入与持续输入）的最佳架构配置是什么？
RQ4在推理过程中，束搜索大小如何影响该字幕生成框架的字幕质量和句子多样性？

主要发现

使用SVM分类器输出作为LSTM初始输入、密集轨迹特征作为持续输入的模型（模型9：cls+traj）在LSMDC 2015盲测集上所有四项评估指标中均表现最佳。
该模型的CIDEr得分达到104.2，为所有测试配置中的最高分，表明其生成的字幕在匹配参考描述方面质量最优。
使用视频级密集轨迹特征显著优于仅依赖关键帧特征的模型，证实了时序运动模式在字幕生成中的价值。
束搜索大小为1时，生成字幕的平均长度为5.33个词；束搜索大小为5时，平均长度降至3.79个词，导致输出更通用、描述性更弱。
较大的束搜索大小导致性能下降，因为模型更倾向于选择高概率但过于通用的短语，如“SOMEONE looks at SOMEONE”，而非更具信息量的描述。
将关键帧特征与视频级特征结合，优于单独使用任一特征类型，证明了二者在信息上的互补性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。