Skip to main content
QUICK REVIEW

[论文解读] Auto-captions on GIF: A Large-scale Video-sentence Dataset for Vision-language Pre-training

Yingwei Pan, Yehao Li|arXiv (Cornell University)|Jul 5, 2020
Multimodal Machine Learning Applications参考文献 45被引用 27
一句话总结

本文提出了 Auto-captions on GIF,一个大规模、自动筛选的视频-句子数据集,包含从网络 GIF 中自动提取的 164,378 个多样化视频-字幕配对,基于对 Alt-text 注释的自动化过滤。作者提出一种基于 Transformer 的编码器-解码器模型(TransED),在该数据集上进行预训练,显著提升了视频字幕生成下游任务的性能,尤其在 MSR-VTT 上微调后,实现了 SOTA 结果,在在线测试集上 CIDEr 得分为 23.9。

ABSTRACT

In this work, we present Auto-captions on GIF, which is a new large-scale pre-training dataset for generic video understanding. All video-sentence pairs are created by automatically extracting and filtering video caption annotations from billions of web pages. Auto-captions on GIF dataset can be utilized to pre-train the generic feature representation or encoder-decoder structure for video captioning, and other downstream tasks (e.g., sentence localization in videos, video question answering, etc.) as well. We present a detailed analysis of Auto-captions on GIF dataset in comparison to existing video-sentence datasets. We also provide an evaluation of a Transformer-based encoder-decoder structure for vision-language pre-training, which is further adapted to video captioning downstream task and yields the compelling generalizability on MSR-VTT. The dataset is available at \url{http://www.auto-video-captions.top/2020/dataset}.

研究动机与目标

  • 解决通用视频理解任务中大规模、多样化视频-句子数据集稀缺的问题。
  • 开发一种自动化流水线,大规模收集并筛选来自网络 GIF 的视频-字幕配对。
  • 利用大规模、多样化且程序化生成的数据集,实现视觉-语言预训练以用于视频理解。
  • 评估在 Auto-captions on GIF 上预训练对下游视频字幕任务有效性的表现。
  • 证明视觉-语言预训练编码器-解码器模型在 MSR-VTT 上的泛化能力。

提出的方法

  • 从数十亿网页的网络 GIF 的 Alt-text 属性中自动提取视频-句子配对。
  • 应用多阶段过滤流水线:去除极性过低/过高、粗俗用语、重复标记以及语法无效的句子。
  • 过滤包含命名实体(如电影、电视剧、音乐)的句子、模板化文本和信息量低的短语。
  • 构建一个包含 164,378 个视频-字幕配对的大规模视频-句子数据集,涵盖多样化的视觉内容。
  • 设计一种基于 Transformer 的编码器-解码器架构(TransED),用于视觉-语言预训练,包含四项代理任务:掩码序列生成、掩码帧特征回归、视频-句子匹配和掩码语言建模。
  • 在 Auto-captions on GIF 数据集上预训练 TransED,然后在 MSR-VTT 上使用交叉熵损失和基于 CIDEr 的强化学习进行微调,以实现视频字幕生成。

实验结果

研究问题

  • RQ1一个大规模、自动收集的视频-句子数据集是否能通过视觉-语言预训练提升通用视频理解能力?
  • RQ2在 Auto-captions on GIF 上进行视觉-语言预训练对下游视频字幕任务的有效性如何?
  • RQ3在像 Auto-captions on GIF 这样多样化、网络规模的数据集上进行预训练,是否能比从零开始在特定任务数据上训练获得更好的泛化性能?
  • RQ4结合预训练与强化学习微调对视频字幕性能有何影响?
  • RQ5预训练的 TransED 模型在 MSR-VTT 上的性能与当前 SOTA 模型相比如何?

主要发现

  • Auto-captions on GIF 数据集包含 164,378 个视频-句子配对,是发表时公开可用的最大规模视频-句子数据集。
  • 该数据集通过多阶段过滤流水线从网络 GIF 中自动构建,确保了高质量、多样化且无冗余的字幕。
  • 在 Auto-captions on GIF 上预训练 TransED 显著提升了 MSR-VTT 视频字幕基准测试的性能,优于仅在特定任务数据上训练的模型。
  • 表现最佳的模型(TransED RL + Pre-training)在在线测试集上实现了 23.9 的 CIDEr 得分,超越了之前的 SOTA 结果。
  • 使用 CIDEr 奖励进行微调的模型(TransED RL + Pre-training)在官方测试集上实现了 18.1 的 BERTScore F1 和 22.3 的 CIDEr 得分,表现出强大的泛化能力。
  • 结果证实,在大规模、多样化且自动收集的数据集(如 Auto-captions on GIF)上进行视觉-语言预训练,能显著提升下游视频字幕任务在多个指标上的性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。