QUICK REVIEW

[論文レビュー] A CLIP-Hitchhiker's Guide to Long Video Retrieval

Max Bain, Arsha Nagrani|arXiv (Cornell University)|May 17, 2022

Multimodal Machine Learning Applications被引用数 25

ひとこと要約

本論文は、CLIP フレーム表現の単純なクエリスコア付き加重平均集約が、長尺ベンチマークにおけるテキストから動画の検索で最先端を達成し、学習パラメータがはるか少ない複雑な時間的モデルを上回ることを示している。

ABSTRACT

Our goal in this paper is the adaptation of image-text models for long video retrieval. Recent works have demonstrated state-of-the-art performance in video retrieval by adopting CLIP, effectively hitchhiking on the image-text representation for video tasks. However, there has been limited success in learning temporal aggregation that outperform mean-pooling the image-level representations extracted per frame by CLIP. We find that the simple yet effective baseline of weighted-mean of frame embeddings via query-scoring is a significant improvement above all prior temporal modelling attempts and mean-pooling. In doing so, we provide an improved baseline for others to compare to and demonstrate state-of-the-art performance of this simple baseline on a suite of long video retrieval benchmarks.

研究の動機と目的

画像-テキストモデル（CLIP）を長尺動画検索に適用する動機づけ。
長尺動画に対する平均プーリングを超える時間的集約手法を調査する。
フレーム埋め込みの単純なクエリ指向加重平均が、ベンチマーク上で複雑な時間的モデルを上回り得ることを示す。

提案手法

ビデオ表現をフレームごとの CLIP 埋め込みの加重平均として定式化する。
異なるスコアリング方式を用いてフレーム関連度スコアを計算する：クエリスコアリング、自己注意スコアリング、結合注意スコアリング。
フレームスコアに温度 τ のソフトマックスを適用してフレーム重みを得て、単一のビデオ埋め込みを形成する。
計算複雑さを分析し、クエリスコアリングがパラメータを持たず効果的であることを示す。
ゼロショットおよびファインチューニング性能を評価するために複数のデータセットで実験する。
既存の時間的集約法およびベースラインの平均プーリングと比較する。

実験結果

リサーチクエスチョン

RQ1シンプルなクエリ誘導付きフレーム埋め込みの重み付けは、長尺動画検索における学習済みの時間的集約法を上回れるか？
RQ2フレームスコアリング戦略の選択（クエリスコアリング vs. 自己注意 vs. 結合注意）が検索性能と計算量にどのように影響するか？
RQ3フレーム数と集約温度が性能に与える影響は？
RQ4フレーム埋め込みの平均は新しい埋め込み領域へマッピングされ、複数フレームの理解を可能にするか？

主な発見

方法	集約	学習可能パラメータ数	R@1	R@5	R@10	MedR	MnR
Ours (q-score)	1	1	47.7	74.1	82.9	11.5	27.0

フレーム CLIP 埋め込みの加重平均を用いたクエリスコアリングは、MSR-VTT、ActivityNet Captions、Condensed Movies で最先端のテキスト-to-動画検索を達成。
この単純なベースラインは、はるか少ない学習可能パラメータで、より複雑な時間的集約法を上回る。
自己注意および結合注意スコアリングは一部データセットで有利だが、すべてのベンチマークを通じて一貫してクエリスコアリングを上回るわけではない。
推定時のフレーム数を増やすと、ベースラインとクエリスコアリングの両方で性能が向上するが、ある点を過ぎると収穫は減少する。
中間レンジの温度 τ（0.05–0.15）がデータセットを跨いで堅牢な性能を発揮する。非常に小さな τ は単一フレームを強調しすぎ、非常に大きな τ は平均プーリングに近づく。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。