[论文解读] VideoBERT: A Joint Model for Video and Language Representation Learning
VideoBERT 通过将视频特征量化为视觉词并将其与 ASR 派生文本配对,使用类似 BERT 的 transformer,训练一个联合视觉-语言模型,从而实现开放词汇的视频理解、零-shot 动作分类,以及在 YouCook II 上的最先进视频字幕生成。
Self-supervised learning has become increasingly important to leverage the abundance of unlabeled data available on platforms like YouTube. Whereas most existing approaches learn low-level representations, we propose a joint visual-linguistic model to learn high-level features without any explicit supervision. In particular, inspired by its recent success in language modeling, we build upon the BERT model to learn bidirectional joint distributions over sequences of visual and linguistic tokens, derived from vector quantization of video data and off-the-shelf speech recognition outputs, respectively. We use VideoBERT in numerous tasks, including action classification and video captioning. We show that it can be applied directly to open-vocabulary classification, and confirm that large amounts of training data and cross-modal information are critical to performance. Furthermore, we outperform the state-of-the-art on video captioning, and quantitative results verify that the model learns high-level semantic features.
研究动机与目标
- 通过利用联合的视频-语言建模,证明可以在没有人工标签的情况下学习高层语义视频表征。
- 将 BERT 调整为同时处理离散视觉标记与语言标记,以学习视频和语言序列上的 p(x, y)。
- 展示 VideoBERT 支持开放词汇的动作分类,并在视频字幕任务上超过先前方法。
- 研究大规模预训练数据和跨模态信息对性能的影响。
- 探索 VideoBERT 特征在下游任务如字幕生成中的可迁移性。
提出的方法
- 将视频表示为通过对3D视频特征进行分层向量量化获得的离散视觉词序列。
- 使用类似 BERT 的掩码标记目标来学习同时包含视觉与语言标记的序列中的双向依赖。
- 加入语言-视觉对齐目标,以教授文本-视频对应关系,使用 [CLS] 表征来预测对齐。
- 在一个包含英语 ASR 的大型 YouTube 烹饪视频数据集上进行训练,以文本监督,从 BERT-LARGE 检查点初始化。
- 将其评估为用于零-shot 动作分类的概率模型,以及用于字幕任务特征提取器。
- 证明增加预训练数据规模可带来单调的性能提升,并且跨模态预训练能改善字幕生成。
实验结果
研究问题
- RQ1一个联合的视觉-语言模型是否可以在没有人工标签的情况下学习高层次的语义视频表征?
- RQ2基于 BERT 的模型在处理离散视觉标记与语言标记以执行开放词汇任务方面的能力如何?
- RQ3相比仅视频训练,跨模态训练(视频和文本)是否能改善视频字幕生成?
- RQ4预训练数据的规模如何影响学习到的表征及下游性能?
- RQ5VideoBERT 特征是否能有效转移到视频字幕生成及其他下游任务?
主要发现
| 方法 | 监督 | 动词 top-1 (%) | 动词 top-5 (%) | 对象 top-1 (%) | 对象 top-5 (%) |
|---|---|---|---|---|---|
| S3D [34] | yes | 16.1 | 46.9 | 13.2 | 30.9 |
| BERT (language prior) | no | 0.0 | 0.0 | 0.0 | 0.0 |
| VideoBERT (language prior) | no | 0.4 | 6.9 | 7.7 | 15.3 |
| VideoBERT (cross modal) | no | 3.2 | 43.3 | 13.1 | 33.7 |
- VideoBERT 在 YouCook II 上实现了具有竞争力的开放词汇动作分类,胜过仅文本和语言先验基线。
- 预训练数据规模从 10K 到 300K 视频的增加,在动词/对象识别指标上带来单调的增益。
- VideoBERT 在 YouCook II 的字幕评估指标上超越 S3D 基线,且跨模态 VideoBERT(视频+文本)超过仅视频版本。
- 将 VideoBERT 与 S3D 特征结合,在 BLEU、METEOR、ROUGE-L 和 CIDEr 的字幕评估指标上达到最佳表现。
- 零-shot 字幕能力表明 VideoBERT 能在没有 YouCook II 监督的情况下利用学习到的视觉-语言表征。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。