QUICK REVIEW

[論文レビュー] CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval

Huaishao Luo, Lei Ji|arXiv (Cornell University)|Apr 18, 2021

Video Analysis and Summarization参考文献 46被引用数 113

ひとこと要約

CLIP4ClipはCLIPの画像-言語事前学習をエンドツーエンドの動画-テキスト検索へ転移させ、3つの類似度計算機を検討し、複数の動画-テキストデータセットで最先端の結果を達成します。

ABSTRACT

Video-text retrieval plays an essential role in multi-modal research and has been widely used in many real-world web applications. The CLIP (Contrastive Language-Image Pre-training), an image-language pre-training model, has demonstrated the power of visual concepts learning from web collected image-text datasets. In this paper, we propose a CLIP4Clip model to transfer the knowledge of the CLIP model to video-language retrieval in an end-to-end manner. Several questions are investigated via empirical studies: 1) Whether image feature is enough for video-text retrieval? 2) How a post-pretraining on a large-scale video-text dataset based on the CLIP affect the performance? 3) What is the practical mechanism to model temporal dependency between video frames? And 4) The Hyper-parameters sensitivity of the model on video-text retrieval task. Extensive experimental results present that the CLIP4Clip model transferred from the CLIP can achieve SOTA results on various video-text retrieval datasets, including MSR-VTT, MSVC, LSMDC, ActivityNet, and DiDeMo. We release our code at https://github.com/ArrowLuo/CLIP4Clip.

研究の動機と目的

単一画像特徴だけで動画-テキスト検索に十分か評価する。
大規模動画-テキストデータでのポスト事前学習CLIPの影響を評価する。
動画フレーム間の時間的依存性を効果的にモデル化する。
動画-テキスト検索性能のハイパーパラメータ感度を検討する。

提案手法

CLIP (ViT-B/32) で動画エンコーダとテキストエンコーダを初期化する。
パラメータフリーの平均プーリング、シーケンシャル（LSTMまたはTransformer）、緊密なTransformerベースの相互作用の3つの類似度計算機タイプを提案する。
パッチ埋め込みの2D対3D線形射影を比較して時間情報を捉える。
MIL-NCEを用いて大規模動画-テキストデータセット（Howto100M-380k）でCLIP4Clipをポスト事前学習する。
動画→テキストおよびテキスト→動画の方向の対称クロスエントロピー損失 s(v,t) で訓練する。
uniform frame sampling（1 frame per second）を使用し、新規モジュールのエンドツーエンド微調整を実施する。
可能な箇所で sequential および tight タイプの新パラメータをCLIP から初期化し、Adam とコサイン学習率スケジュールで微調整する。
フレーム長、トークン長、GPU設定などの事前学習と微調整の詳細は説明通り。

実験結果

リサーチクエスチョン

RQ1動画-テキスト検索で動画をエンコードするのに1つの画像で十分か。
RQ2大規模動画-テキストデータセットでのポスト事前学習CLIPは検索性能にどのような影響を与えるか。
RQ3検索のために動画フレーム間の時間的依存性を最もよくモデル化するメカニズムは何か。
RQ4データが限られている場合、ハイパーパラメータはエンドツーエンドの動画-テキスト検索性能にどのように影響するか。

主な発見

CLIP4ClipはMSR-VTT、MSVC、LSMDC、ActivityNet、DiDeMoの様々な分割と設定で最先端の結果を達成。
単一画像は動画を効果的に動画-テキスト検索用にエンコードするには不十分である。
大規模動画-テキストデータセットでの事前学習は特にゼロショット検索で性能を向上させる。
平均プーリング（パラメータフリー）は小規模データセットで有効だが、時間モデリングを追加すると（例:自己注意）大規模データで有効になる。
ほとんどの tight-type（クロスモーダル相互作用）構成はデータ量が限られていると平均プーリングやシーケンシャル型に比べて劣るが、シーケンシャル/Transformerベースのアプローチはより多くのデータで有利になる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。