Skip to main content
QUICK REVIEW

[论文解读] VideoCoCa: Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners

Shen Yan, Tao Zhu|arXiv (Cornell University)|Dec 9, 2022
Multimodal Machine Learning Applications被引用 20
一句话总结

VideoCoCa 重用一个预训练的图像-文本 CoCa 模型来执行视频-文本任务,几乎无需额外训练,在零-shot 上表现出色,并对 VQA 与字幕任务进行轻量微调。

ABSTRACT

We explore an efficient approach to establish a foundational video-text model. We present VideoCoCa that maximally reuses a pretrained image-text contrastive captioner (CoCa) model and adapt it to video-text tasks with minimal extra training. While previous works adapt image-text models with various cross-frame fusion modules, we find that the generative attentional pooling and contrastive attentional pooling layers in CoCa are instantly adaptable to flattened frame embeddings, yielding state-of-the-art results on zero-shot video classification and zero-shot text-to-video retrieval. Furthermore, we explore lightweight finetuning on top of VideoCoCa, and achieve strong results on video question-answering and video captioning.

研究动机与目标

  • 证明一个冻结的图像-文本 CoCa 模型可以在极少额外训练的情况下扩展到视频-文本任务。
  • 在无需专门视频模块的情况下,展示视频分类和文本到视频检索的零-shot 性能。
  • 探讨在保持效率的同时提升视频问答和字幕任务的轻量微调策略。

提出的方法

  • 将预训练图像编码器的逐帧标记嵌入展平成一条长序列。
  • 对展平后的逐帧序列应用现有的 CoCa 注意力池化器以获得视频表示(Attentional Pooler)。
  • 可选地添加轻量级适配器,如因子化的或联合时空编码器,或以均值池化作为基线。
  • 仅微调少量参数子集(注意力池化器,及可选解码器),使用 VideoCC3M 数据以及 LiT(冻结编码器)策略。
  • 在混合视频-文本数据上进行预训练(考察了 VideoCC3M、HowTo100M),并在不同视频任务上评估零-shot 和微调性能。

实验结果

研究问题

  • RQ1在极少参数和没有新的视频专用模块的情况下,是否可以将一个预训练的图像-文本 CoCa 模型迁移到视频-文本任务?
  • RQ2不同的适配策略(Attentional Pooler、Factorized Encoder、Joint Space-Time、Mean Pooling)在零-shot 视频分类与检索方面的表现对比?
  • RQ3哪种微调策略(Full FT、Frozen、Frozen+FT、LiT)在视频-文本适应中能够获得最佳性能与效率?
  • RQ4在视频-文本数据上继续预训练(VideoCC3M)对零-shot 与微调视频任务的影响?
  • RQ5VideoCoCa 在开放词汇的视频分类、文本到视频检索、视频字幕生成和视频问答上的表现如何?

主要发现

适配器视频分类 Top-1视频分类 Top-5视频检索 R@1视频检索 R@5视频字幕 BLEU-4视频字幕 CIDEr
均值池化40.369.324.545.315.513.4
因子化编码43.372.724.945.615.517.2
联合时空38.165.522.643.814.712.1
注意力池化器45.673.426.446.816.819.9
  • Attentional Pooler 在视频分类、文本到视频检索和视频字幕任务的零-shot 转移中始终提供最佳效果。
  • 在 Kinetics 与 MSR-VTT 相关任务上,配备 Attentional Pooler 的 VideoCoCa 的零-shot 指标高于 Mean Pooling 和其他适配器变体。
  • LiT 风格的微调(冻结图像编码器、可训练的池化器和解码器)在文本到视频检索和字幕生成等微调选项中提供了最佳性能。
  • 在 VideoCC3M 上的持续预训练提升了若干任务的零-shot 性能,相对于无视频基线,在特定数据集(例如 MSR-VTT、ActivityNet Captions、VATEX)上有显著增益。
  • VideoCoCa 能够有效扩展;更大的模型在适度的 TFLOPs 增加下获得更高的指标,且在相似计算资源下超越 CoCa 的基线。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。