[论文解读] VideoCoCa: Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners
VideoCoCa 重用一个预训练的图像-文本 CoCa 模型来执行视频-文本任务,几乎无需额外训练,在零-shot 上表现出色,并对 VQA 与字幕任务进行轻量微调。
We explore an efficient approach to establish a foundational video-text model. We present VideoCoCa that maximally reuses a pretrained image-text contrastive captioner (CoCa) model and adapt it to video-text tasks with minimal extra training. While previous works adapt image-text models with various cross-frame fusion modules, we find that the generative attentional pooling and contrastive attentional pooling layers in CoCa are instantly adaptable to flattened frame embeddings, yielding state-of-the-art results on zero-shot video classification and zero-shot text-to-video retrieval. Furthermore, we explore lightweight finetuning on top of VideoCoCa, and achieve strong results on video question-answering and video captioning.
研究动机与目标
- 证明一个冻结的图像-文本 CoCa 模型可以在极少额外训练的情况下扩展到视频-文本任务。
- 在无需专门视频模块的情况下,展示视频分类和文本到视频检索的零-shot 性能。
- 探讨在保持效率的同时提升视频问答和字幕任务的轻量微调策略。
提出的方法
- 将预训练图像编码器的逐帧标记嵌入展平成一条长序列。
- 对展平后的逐帧序列应用现有的 CoCa 注意力池化器以获得视频表示(Attentional Pooler)。
- 可选地添加轻量级适配器,如因子化的或联合时空编码器,或以均值池化作为基线。
- 仅微调少量参数子集(注意力池化器,及可选解码器),使用 VideoCC3M 数据以及 LiT(冻结编码器)策略。
- 在混合视频-文本数据上进行预训练(考察了 VideoCC3M、HowTo100M),并在不同视频任务上评估零-shot 和微调性能。
实验结果
研究问题
- RQ1在极少参数和没有新的视频专用模块的情况下,是否可以将一个预训练的图像-文本 CoCa 模型迁移到视频-文本任务?
- RQ2不同的适配策略(Attentional Pooler、Factorized Encoder、Joint Space-Time、Mean Pooling)在零-shot 视频分类与检索方面的表现对比?
- RQ3哪种微调策略(Full FT、Frozen、Frozen+FT、LiT)在视频-文本适应中能够获得最佳性能与效率?
- RQ4在视频-文本数据上继续预训练(VideoCC3M)对零-shot 与微调视频任务的影响?
- RQ5VideoCoCa 在开放词汇的视频分类、文本到视频检索、视频字幕生成和视频问答上的表现如何?
主要发现
| 适配器 | 视频分类 Top-1 | 视频分类 Top-5 | 视频检索 R@1 | 视频检索 R@5 | 视频字幕 BLEU-4 | 视频字幕 CIDEr |
|---|---|---|---|---|---|---|
| 均值池化 | 40.3 | 69.3 | 24.5 | 45.3 | 15.5 | 13.4 |
| 因子化编码 | 43.3 | 72.7 | 24.9 | 45.6 | 15.5 | 17.2 |
| 联合时空 | 38.1 | 65.5 | 22.6 | 43.8 | 14.7 | 12.1 |
| 注意力池化器 | 45.6 | 73.4 | 26.4 | 46.8 | 16.8 | 19.9 |
- Attentional Pooler 在视频分类、文本到视频检索和视频字幕任务的零-shot 转移中始终提供最佳效果。
- 在 Kinetics 与 MSR-VTT 相关任务上,配备 Attentional Pooler 的 VideoCoCa 的零-shot 指标高于 Mean Pooling 和其他适配器变体。
- LiT 风格的微调(冻结图像编码器、可训练的池化器和解码器)在文本到视频检索和字幕生成等微调选项中提供了最佳性能。
- 在 VideoCC3M 上的持续预训练提升了若干任务的零-shot 性能,相对于无视频基线,在特定数据集(例如 MSR-VTT、ActivityNet Captions、VATEX)上有显著增益。
- VideoCoCa 能够有效扩展;更大的模型在适度的 TFLOPs 增加下获得更高的指标,且在相似计算资源下超越 CoCa 的基线。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。