[论文解读] Auto-captions on GIF: A Large-scale Video-sentence Dataset for Vision-language Pre-training
本文提出了 Auto-captions on GIF,一个大规模、自动筛选的视频-句子数据集,包含从网络 GIF 中自动提取的 164,378 个多样化视频-字幕配对,基于对 Alt-text 注释的自动化过滤。作者提出一种基于 Transformer 的编码器-解码器模型(TransED),在该数据集上进行预训练,显著提升了视频字幕生成下游任务的性能,尤其在 MSR-VTT 上微调后,实现了 SOTA 结果,在在线测试集上 CIDEr 得分为 23.9。
In this work, we present Auto-captions on GIF, which is a new large-scale pre-training dataset for generic video understanding. All video-sentence pairs are created by automatically extracting and filtering video caption annotations from billions of web pages. Auto-captions on GIF dataset can be utilized to pre-train the generic feature representation or encoder-decoder structure for video captioning, and other downstream tasks (e.g., sentence localization in videos, video question answering, etc.) as well. We present a detailed analysis of Auto-captions on GIF dataset in comparison to existing video-sentence datasets. We also provide an evaluation of a Transformer-based encoder-decoder structure for vision-language pre-training, which is further adapted to video captioning downstream task and yields the compelling generalizability on MSR-VTT. The dataset is available at \url{http://www.auto-video-captions.top/2020/dataset}.
研究动机与目标
- 解决通用视频理解任务中大规模、多样化视频-句子数据集稀缺的问题。
- 开发一种自动化流水线,大规模收集并筛选来自网络 GIF 的视频-字幕配对。
- 利用大规模、多样化且程序化生成的数据集,实现视觉-语言预训练以用于视频理解。
- 评估在 Auto-captions on GIF 上预训练对下游视频字幕任务有效性的表现。
- 证明视觉-语言预训练编码器-解码器模型在 MSR-VTT 上的泛化能力。
提出的方法
- 从数十亿网页的网络 GIF 的 Alt-text 属性中自动提取视频-句子配对。
- 应用多阶段过滤流水线:去除极性过低/过高、粗俗用语、重复标记以及语法无效的句子。
- 过滤包含命名实体(如电影、电视剧、音乐)的句子、模板化文本和信息量低的短语。
- 构建一个包含 164,378 个视频-字幕配对的大规模视频-句子数据集,涵盖多样化的视觉内容。
- 设计一种基于 Transformer 的编码器-解码器架构(TransED),用于视觉-语言预训练,包含四项代理任务:掩码序列生成、掩码帧特征回归、视频-句子匹配和掩码语言建模。
- 在 Auto-captions on GIF 数据集上预训练 TransED,然后在 MSR-VTT 上使用交叉熵损失和基于 CIDEr 的强化学习进行微调,以实现视频字幕生成。
实验结果
研究问题
- RQ1一个大规模、自动收集的视频-句子数据集是否能通过视觉-语言预训练提升通用视频理解能力?
- RQ2在 Auto-captions on GIF 上进行视觉-语言预训练对下游视频字幕任务的有效性如何?
- RQ3在像 Auto-captions on GIF 这样多样化、网络规模的数据集上进行预训练,是否能比从零开始在特定任务数据上训练获得更好的泛化性能?
- RQ4结合预训练与强化学习微调对视频字幕性能有何影响?
- RQ5预训练的 TransED 模型在 MSR-VTT 上的性能与当前 SOTA 模型相比如何?
主要发现
- Auto-captions on GIF 数据集包含 164,378 个视频-句子配对,是发表时公开可用的最大规模视频-句子数据集。
- 该数据集通过多阶段过滤流水线从网络 GIF 中自动构建,确保了高质量、多样化且无冗余的字幕。
- 在 Auto-captions on GIF 上预训练 TransED 显著提升了 MSR-VTT 视频字幕基准测试的性能,优于仅在特定任务数据上训练的模型。
- 表现最佳的模型(TransED RL + Pre-training)在在线测试集上实现了 23.9 的 CIDEr 得分,超越了之前的 SOTA 结果。
- 使用 CIDEr 奖励进行微调的模型(TransED RL + Pre-training)在官方测试集上实现了 18.1 的 BERTScore F1 和 22.3 的 CIDEr 得分,表现出强大的泛化能力。
- 结果证实,在大规模、多样化且自动收集的数据集(如 Auto-captions on GIF)上进行视觉-语言预训练,能显著提升下游视频字幕任务在多个指标上的性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。