Skip to main content
QUICK REVIEW

[论文解读] CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval

Huaishao Luo, Lei Ji|arXiv (Cornell University)|Apr 18, 2021
Video Analysis and Summarization参考文献 46被引用 113
一句话总结

CLIP4Clip 将 CLIP 的图像-语言预训练迁移到端到端的视频-文本检索,探索三种相似度计算器,并在多个视频-文本数据集上取得最先进的结果。

ABSTRACT

Video-text retrieval plays an essential role in multi-modal research and has been widely used in many real-world web applications. The CLIP (Contrastive Language-Image Pre-training), an image-language pre-training model, has demonstrated the power of visual concepts learning from web collected image-text datasets. In this paper, we propose a CLIP4Clip model to transfer the knowledge of the CLIP model to video-language retrieval in an end-to-end manner. Several questions are investigated via empirical studies: 1) Whether image feature is enough for video-text retrieval? 2) How a post-pretraining on a large-scale video-text dataset based on the CLIP affect the performance? 3) What is the practical mechanism to model temporal dependency between video frames? And 4) The Hyper-parameters sensitivity of the model on video-text retrieval task. Extensive experimental results present that the CLIP4Clip model transferred from the CLIP can achieve SOTA results on various video-text retrieval datasets, including MSR-VTT, MSVC, LSMDC, ActivityNet, and DiDeMo. We release our code at https://github.com/ArrowLuo/CLIP4Clip.

研究动机与目标

  • 评估单图像特征是否足以用于视频-文本检索。
  • 评估对大规模视频-文本数据进行后预训练的 CLIP 的影响。
  • 有效建模视频帧之间的时序相关性。
  • 研究超参数对视频-文本检索性能的敏感性。

提出的方法

  • 使用 CLIP (ViT-B/32) 初始化视频和文本编码器。
  • 提出三种相似度计算器类型:参数无关的均值池化、序列型(LSTM 或 Transformer),以及基于紧凑 Transformer 的交互。
  • 比较 2D 与 3D 线性投影在 patch Embeddings 上以捕捉时序信息。
  • 在一个大规模视频-文本数据集(Howto100M-380k)上进行后预训练 CLIP4Clip,使用 MIL-NCE。
  • 使用对称的交叉熵损失 s(v,t) 进行 video-to-text 与 text-to-video 方向的训练。
  • 使用均匀帧采样(每秒 1 帧)并对新模块进行端到端微调。
  • 在可能的情况下,从 CLIP 初始化序列型和紧凑型的新参数;使用 Adam 和余弦学习率调度进行微调。
  • 预训练和微调的细节包括帧长度、Token 长度和如前所述的 GPU 设置。

实验结果

研究问题

  • RQ1单张图像是否足以用于视频-文本检索中的视频编码?
  • RQ2对大规模视频-文本数据集进行后预训练的 CLIP 对检索性能有何影响?
  • RQ3哪些机制能最好地建模视频帧之间的时序依赖以用于检索?
  • RQ4超参数如何影响跨数据集的端到端视频-文本检索性能?

主要发现

  • CLIP4Clip 在 MSR-VTT、MSVC、LSMDC、ActivityNet 和 DiDeMo 的多种数据切分和设置下达到最先进的结果。
  • 单张图像不足以有效对视频进行编码以用于视频-文本检索。
  • 在大规模视频-文本数据集上的后预训练可提升性能,特别是零样本检索。
  • 均值池化(参数无关)在小型数据集上效果显著,而增加时序建模(例如自注意力)在较大数据集上有帮助。
  • 当数据有限时,大多数紧凑型(跨模态交互)配置的表现低于均值池化或序列类型,但在数据增多时,序列/基于 Transformer 的方法会受益。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。