QUICK REVIEW

[论文解读] CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval

Huaishao Luo, Lei Ji|arXiv (Cornell University)|Apr 18, 2021

Video Analysis and Summarization参考文献 46被引用 113

一句话总结

CLIP4Clip 将 CLIP 的图像-语言预训练迁移到端到端的视频-文本检索，探索三种相似度计算器，并在多个视频-文本数据集上取得最先进的结果。

ABSTRACT

Video-text retrieval plays an essential role in multi-modal research and has been widely used in many real-world web applications. The CLIP (Contrastive Language-Image Pre-training), an image-language pre-training model, has demonstrated the power of visual concepts learning from web collected image-text datasets. In this paper, we propose a CLIP4Clip model to transfer the knowledge of the CLIP model to video-language retrieval in an end-to-end manner. Several questions are investigated via empirical studies: 1) Whether image feature is enough for video-text retrieval? 2) How a post-pretraining on a large-scale video-text dataset based on the CLIP affect the performance? 3) What is the practical mechanism to model temporal dependency between video frames? And 4) The Hyper-parameters sensitivity of the model on video-text retrieval task. Extensive experimental results present that the CLIP4Clip model transferred from the CLIP can achieve SOTA results on various video-text retrieval datasets, including MSR-VTT, MSVC, LSMDC, ActivityNet, and DiDeMo. We release our code at https://github.com/ArrowLuo/CLIP4Clip.

研究动机与目标

评估单图像特征是否足以用于视频-文本检索。
评估对大规模视频-文本数据进行后预训练的 CLIP 的影响。
有效建模视频帧之间的时序相关性。
研究超参数对视频-文本检索性能的敏感性。

提出的方法

使用 CLIP (ViT-B/32) 初始化视频和文本编码器。
提出三种相似度计算器类型：参数无关的均值池化、序列型（LSTM 或 Transformer），以及基于紧凑 Transformer 的交互。
比较 2D 与 3D 线性投影在 patch Embeddings 上以捕捉时序信息。
在一个大规模视频-文本数据集（Howto100M-380k）上进行后预训练 CLIP4Clip，使用 MIL-NCE。
使用对称的交叉熵损失 s(v,t) 进行 video-to-text 与 text-to-video 方向的训练。
使用均匀帧采样（每秒 1 帧）并对新模块进行端到端微调。
在可能的情况下，从 CLIP 初始化序列型和紧凑型的新参数；使用 Adam 和余弦学习率调度进行微调。
预训练和微调的细节包括帧长度、Token 长度和如前所述的 GPU 设置。

实验结果

研究问题

RQ1单张图像是否足以用于视频-文本检索中的视频编码？
RQ2对大规模视频-文本数据集进行后预训练的 CLIP 对检索性能有何影响？
RQ3哪些机制能最好地建模视频帧之间的时序依赖以用于检索？
RQ4超参数如何影响跨数据集的端到端视频-文本检索性能？

主要发现

CLIP4Clip 在 MSR-VTT、MSVC、LSMDC、ActivityNet 和 DiDeMo 的多种数据切分和设置下达到最先进的结果。
单张图像不足以有效对视频进行编码以用于视频-文本检索。
在大规模视频-文本数据集上的后预训练可提升性能，特别是零样本检索。
均值池化（参数无关）在小型数据集上效果显著，而增加时序建模（例如自注意力）在较大数据集上有帮助。
当数据有限时，大多数紧凑型（跨模态交互）配置的表现低于均值池化或序列类型，但在数据增多时，序列/基于 Transformer 的方法会受益。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。