QUICK REVIEW

[论文解读] VideoCoCa: Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners

Shen Yan, Tao Zhu|arXiv (Cornell University)|Dec 9, 2022

Multimodal Machine Learning Applications被引用 20

一句话总结

VideoCoCa 重用一个预训练的图像-文本 CoCa 模型来执行视频-文本任务，几乎无需额外训练，在零-shot 上表现出色，并对 VQA 与字幕任务进行轻量微调。

ABSTRACT

We explore an efficient approach to establish a foundational video-text model. We present VideoCoCa that maximally reuses a pretrained image-text contrastive captioner (CoCa) model and adapt it to video-text tasks with minimal extra training. While previous works adapt image-text models with various cross-frame fusion modules, we find that the generative attentional pooling and contrastive attentional pooling layers in CoCa are instantly adaptable to flattened frame embeddings, yielding state-of-the-art results on zero-shot video classification and zero-shot text-to-video retrieval. Furthermore, we explore lightweight finetuning on top of VideoCoCa, and achieve strong results on video question-answering and video captioning.

研究动机与目标

证明一个冻结的图像-文本 CoCa 模型可以在极少额外训练的情况下扩展到视频-文本任务。
在无需专门视频模块的情况下，展示视频分类和文本到视频检索的零-shot 性能。
探讨在保持效率的同时提升视频问答和字幕任务的轻量微调策略。

提出的方法

将预训练图像编码器的逐帧标记嵌入展平成一条长序列。
对展平后的逐帧序列应用现有的 CoCa 注意力池化器以获得视频表示（Attentional Pooler）。
可选地添加轻量级适配器，如因子化的或联合时空编码器，或以均值池化作为基线。
仅微调少量参数子集（注意力池化器，及可选解码器），使用 VideoCC3M 数据以及 LiT（冻结编码器）策略。
在混合视频-文本数据上进行预训练（考察了 VideoCC3M、HowTo100M），并在不同视频任务上评估零-shot 和微调性能。

实验结果

研究问题

RQ1在极少参数和没有新的视频专用模块的情况下，是否可以将一个预训练的图像-文本 CoCa 模型迁移到视频-文本任务？
RQ2不同的适配策略（Attentional Pooler、Factorized Encoder、Joint Space-Time、Mean Pooling）在零-shot 视频分类与检索方面的表现对比？
RQ3哪种微调策略（Full FT、Frozen、Frozen+FT、LiT）在视频-文本适应中能够获得最佳性能与效率？
RQ4在视频-文本数据上继续预训练（VideoCC3M）对零-shot 与微调视频任务的影响？
RQ5VideoCoCa 在开放词汇的视频分类、文本到视频检索、视频字幕生成和视频问答上的表现如何？

主要发现

适配器	视频分类 Top-1	视频分类 Top-5	视频检索 R@1	视频检索 R@5	视频字幕 BLEU-4	视频字幕 CIDEr
均值池化	40.3	69.3	24.5	45.3	15.5	13.4
因子化编码	43.3	72.7	24.9	45.6	15.5	17.2
联合时空	38.1	65.5	22.6	43.8	14.7	12.1
注意力池化器	45.6	73.4	26.4	46.8	16.8	19.9

Attentional Pooler 在视频分类、文本到视频检索和视频字幕任务的零-shot 转移中始终提供最佳效果。
在 Kinetics 与 MSR-VTT 相关任务上，配备 Attentional Pooler 的 VideoCoCa 的零-shot 指标高于 Mean Pooling 和其他适配器变体。
LiT 风格的微调（冻结图像编码器、可训练的池化器和解码器）在文本到视频检索和字幕生成等微调选项中提供了最佳性能。
在 VideoCC3M 上的持续预训练提升了若干任务的零-shot 性能，相对于无视频基线，在特定数据集（例如 MSR-VTT、ActivityNet Captions、VATEX）上有显著增益。
VideoCoCa 能够有效扩展；更大的模型在适度的 TFLOPs 增加下获得更高的指标，且在相似计算资源下超越 CoCa 的基线。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。