Skip to main content
QUICK REVIEW

[論文レビュー] A CLIP-Hitchhiker's Guide to Long Video Retrieval

Max Bain, Arsha Nagrani|arXiv (Cornell University)|May 17, 2022
Multimodal Machine Learning Applications被引用数 25
ひとこと要約

本論文は、CLIP フレーム表現の単純なクエリスコア付き加重平均集約が、長尺ベンチマークにおけるテキストから動画の検索で最先端を達成し、学習パラメータがはるか少ない複雑な時間的モデルを上回ることを示している。

ABSTRACT

Our goal in this paper is the adaptation of image-text models for long video retrieval. Recent works have demonstrated state-of-the-art performance in video retrieval by adopting CLIP, effectively hitchhiking on the image-text representation for video tasks. However, there has been limited success in learning temporal aggregation that outperform mean-pooling the image-level representations extracted per frame by CLIP. We find that the simple yet effective baseline of weighted-mean of frame embeddings via query-scoring is a significant improvement above all prior temporal modelling attempts and mean-pooling. In doing so, we provide an improved baseline for others to compare to and demonstrate state-of-the-art performance of this simple baseline on a suite of long video retrieval benchmarks.

研究の動機と目的

  • 画像-テキストモデル(CLIP)を長尺動画検索に適用する動機づけ。
  • 長尺動画に対する平均プーリングを超える時間的集約手法を調査する。
  • フレーム埋め込みの単純なクエリ指向加重平均が、ベンチマーク上で複雑な時間的モデルを上回り得ることを示す。

提案手法

  • ビデオ表現をフレームごとの CLIP 埋め込みの加重平均として定式化する。
  • 異なるスコアリング方式を用いてフレーム関連度スコアを計算する:クエリスコアリング、自己注意スコアリング、結合注意スコアリング。
  • フレームスコアに温度 τ のソフトマックスを適用してフレーム重みを得て、単一のビデオ埋め込みを形成する。
  • 計算複雑さを分析し、クエリスコアリングがパラメータを持たず効果的であることを示す。
  • ゼロショットおよびファインチューニング性能を評価するために複数のデータセットで実験する。
  • 既存の時間的集約法およびベースラインの平均プーリングと比較する。

実験結果

リサーチクエスチョン

  • RQ1シンプルなクエリ誘導付きフレーム埋め込みの重み付けは、長尺動画検索における学習済みの時間的集約法を上回れるか?
  • RQ2フレームスコアリング戦略の選択(クエリスコアリング vs. 自己注意 vs. 結合注意)が検索性能と計算量にどのように影響するか?
  • RQ3フレーム数と集約温度が性能に与える影響は?
  • RQ4フレーム埋め込みの平均は新しい埋め込み領域へマッピングされ、複数フレームの理解を可能にするか?

主な発見

方法集約学習可能パラメータ数R@1R@5R@10MedRMnR
Ours (q-score)1147.774.182.911.527.0
  • フレーム CLIP 埋め込みの加重平均を用いたクエリスコアリングは、MSR-VTT、ActivityNet Captions、Condensed Movies で最先端のテキスト-to-動画検索を達成。
  • この単純なベースラインは、はるか少ない学習可能パラメータで、より複雑な時間的集約法を上回る。
  • 自己注意および結合注意スコアリングは一部データセットで有利だが、すべてのベンチマークを通じて一貫してクエリスコアリングを上回るわけではない。
  • 推定時のフレーム数を増やすと、ベースラインとクエリスコアリングの両方で性能が向上するが、ある点を過ぎると収穫は減少する。
  • 中間レンジの温度 τ(0.05–0.15)がデータセットを跨いで堅牢な性能を発揮する。非常に小さな τ は単一フレームを強調しすぎ、非常に大きな τ は平均プーリングに近づく。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。