[论文解读] InternVideo: General Video Foundation Models via Generative and Discriminative Learning
InternVideo 通过统一的掩蔽视频建模和视频-语言对比学习,构建通用视频基础模型,在39个数据集和多种视频任务上达到最先进的结果。
The foundation models have recently shown excellent performance on a variety of downstream tasks in computer vision. However, most existing vision foundation models simply focus on image-level pretraining and adpation, which are limited for dynamic and complex video-level understanding tasks. To fill the gap, we present general video foundation models, InternVideo, by taking advantage of both generative and discriminative self-supervised video learning. Specifically, InternVideo efficiently explores masked video modeling and video-language contrastive learning as the pretraining objectives, and selectively coordinates video representations of these two complementary frameworks in a learnable manner to boost various video applications. Without bells and whistles, InternVideo achieves state-of-the-art performance on 39 video datasets from extensive tasks including video action recognition/detection, video-language alignment, and open-world video applications. Especially, our methods can obtain 91.1% and 77.2% top-1 accuracy on the challenging Kinetics-400 and Something-Something V2 benchmarks, respectively. All of these results effectively show the generality of our InternVideo for video understanding. The code will be released at https://github.com/OpenGVLab/InternVideo .
研究动机与目标
- 推动对超越图像预训练的通用视频基础模型需求的认识。
- 开发将掩蔽视频建模与多模态对比学习结合的统一表征学习范式。
- 实现跨表示交互的高效融合,结合生成与判别学习的特征。
- 在覆盖动作理解、视频-语言对齐和开放世界应用的大规模基准上验证该方法。
提出的方法
- 采用类似 VideoMAE 的掩蔽视频建模,使用高掩蔽比率以学习时空表征。
- 基于类似 CLIP 的框架执行视频-语言对比学习,并配备字幕解码器用于跨模态融合。
- 以监督的动作识别(Kinetics-710)进行后训练,以提升下游性能。
- 引入跨模型注意力(CMA)以在独立预训练后对齐并融合掩蔽视频与多模态表征。
- 在 CMA 过程中保持骨干网络冻结,以在学习联合表征时维持稳定性。
实验结果
研究问题
- RQ1一个从掩蔽视频建模与多模态对比学习中学习的统一表征能否在多样化视频任务中泛化?
- RQ2跨模型注意力是否能在不进行端到端联合训练的情况下有效融合生成与判别视频特征?
- RQ3当扩大到大规模数据集与模型规模时,组件(VideoMAE、基于 UniFormerV2 的多模态编码器)的可扩展性如何?
- RQ4监督性后训练对下游在动作理解与视频-语言任务上的性能有何影响?
- RQ5相比于任务特定模型,InternVideo 在开放世界与零-shot 设置上的表现如何?
主要发现
| 数据集 | 模型 | K400 | K600 | K700 |
|---|---|---|---|---|
| Kinetics-400 | InternVideo-D | 90.9 | 91.1 | 83.8 |
| Kinetics-400 | InternVideo-T | 91.1 | 91.3 | 84.0 |
- 在39个数据集的动作理解、视频-语言对齐和开放世界任务中达到最先进的结果。
- 在 Kinetics-400 上,InternVideo-D 达到 90.9% 的 top-1 准确率,InternVideo-T 达到 91.1%(相比基础版本在 K400 上提升了 1.2 点)。
- 在 Something-Something V1/V2、ActivityNet、HACS 和 HMDB51 上,InternVideo 对比以往的 SOTA 方法有显著提升(如 SthSthV1: 70.0%,SthSthV2: 77.2%,ActivityNet: 94.3%,HACS: 95.5%,HMDB51: 89.3%)。
- 时间和时空定位任务(THUMOS-14、ActivityNet-v1.3、HACS、FineAction)显示 InternVideo 提供了接近甚至优于 SOTA 的 mAP 提升(如 THUMOS-14 71.58,配合 ActionFormer 头)。
- 视频-语言任务显示强劲的检索与问答性能;例如 MSR-VTT/Video-to-Text 检索和视频问答相对于基线有提升;零-shot 与开放集迁移表现稳健。
- 跨模型交互(CMA)实现了 MAE 与多模态特征的有效融合,同时保持骨干网络冻结,提供了一个在计算上可行的训练方案。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。