[论文解读] CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval
CLIP4Clip 将 CLIP 的图像-语言预训练迁移到端到端的视频-文本检索,探索三种相似度计算器,并在多个视频-文本数据集上取得最先进的结果。
Video-text retrieval plays an essential role in multi-modal research and has been widely used in many real-world web applications. The CLIP (Contrastive Language-Image Pre-training), an image-language pre-training model, has demonstrated the power of visual concepts learning from web collected image-text datasets. In this paper, we propose a CLIP4Clip model to transfer the knowledge of the CLIP model to video-language retrieval in an end-to-end manner. Several questions are investigated via empirical studies: 1) Whether image feature is enough for video-text retrieval? 2) How a post-pretraining on a large-scale video-text dataset based on the CLIP affect the performance? 3) What is the practical mechanism to model temporal dependency between video frames? And 4) The Hyper-parameters sensitivity of the model on video-text retrieval task. Extensive experimental results present that the CLIP4Clip model transferred from the CLIP can achieve SOTA results on various video-text retrieval datasets, including MSR-VTT, MSVC, LSMDC, ActivityNet, and DiDeMo. We release our code at https://github.com/ArrowLuo/CLIP4Clip.
研究动机与目标
- 评估单图像特征是否足以用于视频-文本检索。
- 评估对大规模视频-文本数据进行后预训练的 CLIP 的影响。
- 有效建模视频帧之间的时序相关性。
- 研究超参数对视频-文本检索性能的敏感性。
提出的方法
- 使用 CLIP (ViT-B/32) 初始化视频和文本编码器。
- 提出三种相似度计算器类型:参数无关的均值池化、序列型(LSTM 或 Transformer),以及基于紧凑 Transformer 的交互。
- 比较 2D 与 3D 线性投影在 patch Embeddings 上以捕捉时序信息。
- 在一个大规模视频-文本数据集(Howto100M-380k)上进行后预训练 CLIP4Clip,使用 MIL-NCE。
- 使用对称的交叉熵损失 s(v,t) 进行 video-to-text 与 text-to-video 方向的训练。
- 使用均匀帧采样(每秒 1 帧)并对新模块进行端到端微调。
- 在可能的情况下,从 CLIP 初始化序列型和紧凑型的新参数;使用 Adam 和余弦学习率调度进行微调。
- 预训练和微调的细节包括帧长度、Token 长度和如前所述的 GPU 设置。
实验结果
研究问题
- RQ1单张图像是否足以用于视频-文本检索中的视频编码?
- RQ2对大规模视频-文本数据集进行后预训练的 CLIP 对检索性能有何影响?
- RQ3哪些机制能最好地建模视频帧之间的时序依赖以用于检索?
- RQ4超参数如何影响跨数据集的端到端视频-文本检索性能?
主要发现
- CLIP4Clip 在 MSR-VTT、MSVC、LSMDC、ActivityNet 和 DiDeMo 的多种数据切分和设置下达到最先进的结果。
- 单张图像不足以有效对视频进行编码以用于视频-文本检索。
- 在大规模视频-文本数据集上的后预训练可提升性能,特别是零样本检索。
- 均值池化(参数无关)在小型数据集上效果显著,而增加时序建模(例如自注意力)在较大数据集上有帮助。
- 当数据有限时,大多数紧凑型(跨模态交互)配置的表现低于均值池化或序列类型,但在数据增多时,序列/基于 Transformer 的方法会受益。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。