QUICK REVIEW

[论文解读] Auto-captions on GIF: A Large-scale Video-sentence Dataset for Vision-language Pre-training

Yingwei Pan, Yehao Li|arXiv (Cornell University)|Jul 5, 2020

Multimodal Machine Learning Applications参考文献 45被引用 27

一句话总结

本文提出了 Auto-captions on GIF，一个大规模、自动筛选的视频-句子数据集，包含从网络 GIF 中自动提取的 164,378 个多样化视频-字幕配对，基于对 Alt-text 注释的自动化过滤。作者提出一种基于 Transformer 的编码器-解码器模型（TransED），在该数据集上进行预训练，显著提升了视频字幕生成下游任务的性能，尤其在 MSR-VTT 上微调后，实现了 SOTA 结果，在在线测试集上 CIDEr 得分为 23.9。

ABSTRACT

In this work, we present Auto-captions on GIF, which is a new large-scale pre-training dataset for generic video understanding. All video-sentence pairs are created by automatically extracting and filtering video caption annotations from billions of web pages. Auto-captions on GIF dataset can be utilized to pre-train the generic feature representation or encoder-decoder structure for video captioning, and other downstream tasks (e.g., sentence localization in videos, video question answering, etc.) as well. We present a detailed analysis of Auto-captions on GIF dataset in comparison to existing video-sentence datasets. We also provide an evaluation of a Transformer-based encoder-decoder structure for vision-language pre-training, which is further adapted to video captioning downstream task and yields the compelling generalizability on MSR-VTT. The dataset is available at \url{http://www.auto-video-captions.top/2020/dataset}.

研究动机与目标

解决通用视频理解任务中大规模、多样化视频-句子数据集稀缺的问题。
开发一种自动化流水线，大规模收集并筛选来自网络 GIF 的视频-字幕配对。
利用大规模、多样化且程序化生成的数据集，实现视觉-语言预训练以用于视频理解。
评估在 Auto-captions on GIF 上预训练对下游视频字幕任务有效性的表现。
证明视觉-语言预训练编码器-解码器模型在 MSR-VTT 上的泛化能力。

提出的方法

从数十亿网页的网络 GIF 的 Alt-text 属性中自动提取视频-句子配对。
应用多阶段过滤流水线：去除极性过低/过高、粗俗用语、重复标记以及语法无效的句子。
过滤包含命名实体（如电影、电视剧、音乐）的句子、模板化文本和信息量低的短语。
构建一个包含 164,378 个视频-字幕配对的大规模视频-句子数据集，涵盖多样化的视觉内容。
设计一种基于 Transformer 的编码器-解码器架构（TransED），用于视觉-语言预训练，包含四项代理任务：掩码序列生成、掩码帧特征回归、视频-句子匹配和掩码语言建模。
在 Auto-captions on GIF 数据集上预训练 TransED，然后在 MSR-VTT 上使用交叉熵损失和基于 CIDEr 的强化学习进行微调，以实现视频字幕生成。

实验结果

研究问题

RQ1一个大规模、自动收集的视频-句子数据集是否能通过视觉-语言预训练提升通用视频理解能力？
RQ2在 Auto-captions on GIF 上进行视觉-语言预训练对下游视频字幕任务的有效性如何？
RQ3在像 Auto-captions on GIF 这样多样化、网络规模的数据集上进行预训练，是否能比从零开始在特定任务数据上训练获得更好的泛化性能？
RQ4结合预训练与强化学习微调对视频字幕性能有何影响？
RQ5预训练的 TransED 模型在 MSR-VTT 上的性能与当前 SOTA 模型相比如何？

主要发现

Auto-captions on GIF 数据集包含 164,378 个视频-句子配对，是发表时公开可用的最大规模视频-句子数据集。
该数据集通过多阶段过滤流水线从网络 GIF 中自动构建，确保了高质量、多样化且无冗余的字幕。
在 Auto-captions on GIF 上预训练 TransED 显著提升了 MSR-VTT 视频字幕基准测试的性能，优于仅在特定任务数据上训练的模型。
表现最佳的模型（TransED RL + Pre-training）在在线测试集上实现了 23.9 的 CIDEr 得分，超越了之前的 SOTA 结果。
使用 CIDEr 奖励进行微调的模型（TransED RL + Pre-training）在官方测试集上实现了 18.1 的 BERTScore F1 和 22.3 的 CIDEr 得分，表现出强大的泛化能力。
结果证实，在大规模、多样化且自动收集的数据集（如 Auto-captions on GIF）上进行视觉-语言预训练，能显著提升下游视频字幕任务在多个指标上的性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。