[论文解读] CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language Representation Alignment
CLIP-ViP 通过视频代理机制和 Omnisource Cross-modal Learning 将预训练的图像-文本模型(CLIP)用于视频-语言对齐,在 MSR-VTT、DiDeMo、LSMDC 和 ActivityNet 上实现强劲的视频-文本检索结果。
The pre-trained image-text models, like CLIP, have demonstrated the strong power of vision-language representation learned from a large scale of web-collected image-text data. In light of the well-learned visual features, some existing works transfer image representation to video domain and achieve good results. However, how to utilize image-language pre-trained model (e.g., CLIP) for video-language pre-training (post-pretraining) is still under explored. In this paper, we investigate two questions: 1) what are the factors hindering post-pretraining CLIP to further improve the performance on video-language tasks? and 2) how to mitigate the impact of these factors? Through a series of comparative experiments and analyses, we find that the data scale and domain gap between language sources have great impacts. Motivated by these, we propose a Omnisource Cross-modal Learning method equipped with a Video Proxy mechanism on the basis of CLIP, namely CLIP-ViP. Extensive results show that our approach improves the performance of CLIP on video-text retrieval by a large margin. Our model also achieves SOTA results on a variety of datasets, including MSR-VTT, DiDeMo, LSMDC, and ActivityNet. We will release our code and pre-trained CLIP-ViP models at https://github.com/microsoft/XPretrain/tree/main/CLIP-ViP.
研究动机与目标
- 调查在视频-文本任务上对图像-文本模型进行后预训练时的阻碍因素。
- 识别数据规模和语言域差距作为视频后预训练中的关键挑战。
- 提出弥合差距并利用图像-文本预训练来处理视频-文本任务的方法。
提出的方法
- 引入由图像描述模型生成的领域内辅助字幕,以减少语言域差距。
- 设计 Video Proxy (ViP) tokens 和一个 proxy-guided attention 机制,使 ViT 能在最小改动的情况下处理图像和视频。
- 提出 Omnisource Cross-modal Learning (OCL),使用 info-NCE 损失从 video-subtitle 与 image-caption 数据中联合学习。
- 探索几种 OCL 损失变体,以找到多源跨模态信号的有效融合。
- 提供训练细节并进行广泛的消融实验以验证组件。
实验结果
研究问题
- RQ1是什么因素阻碍 CLIP 类模型从视频后预训练中受益?
- RQ2如何通过辅助数据和架构适配来缓解视频后预训练过程中的数据规模和语言域差距?
- RQ3在同时利用 video-subtitles 和 auxiliary captions 时,Omnisource Cross-modal Learning 策略是否能提升视频-文本检索?
主要发现
- 在小规模视频数据上进行后预训练会导致过拟合并降低性能,而大规模数据(HD-VILA-100M)是有益的。
- 预训练字幕与下游描述文本之间存在较大的语言域差距,可能阻碍迁移,促使引入辅助字幕。
- Video Proxy tokens 与 proxy-guided attention 在视频-文本检索方面优于 MeanPool、SeqTransformer 和 Full Attention 基线。
- 在 MSR-VTT 和 DiDeMo 上,使用 auxiliary captions 的 Omnisource Cross-modal Learning 相较单源方法带来显著提升。
- 将大规模视频字幕数据与辅助字幕以及跨模态损失相结合,在 text-to-video retrieval 上在 MSR-VTT、DiDeMo、LSMDC 和 ActivityNet 上实现了最先进的结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。