[論文レビュー] Use What You Have: Video Retrieval Using Representations From Collaborative Experts
five benchmarks: この論文は、Collaborative Experts (CE) フレームワークを提案します。複数の事前学習済みの単一モダリティ動画専門家(例: objects、actions、speech、OCR)を単一でコンパクトな動画-テキスト埋め込みに統合し、動的な協調ゲーティング機構を用いた検索用。
The rapid growth of video on the internet has made searching for video content using natural language queries a significant challenge. Human-generated queries for video datasets `in the wild' vary a lot in terms of degree of specificity, with some queries describing specific details such as the names of famous identities, content from speech, or text available on the screen. Our goal is to condense the multi-modal, extremely high dimensional information from videos into a single, compact video representation for the task of video retrieval using free-form text queries, where the degree of specificity is open-ended. For this we exploit existing knowledge in the form of pre-trained semantic embeddings which include 'general' features such as motion, appearance, and scene features from visual content. We also explore the use of more 'specific' cues from ASR and OCR which are intermittently available for videos and find that these signals remain challenging to use effectively for retrieval. We propose a collaborative experts model to aggregate information from these different pre-trained experts and assess our approach empirically on five retrieval benchmarks: MSR-VTT, LSMDC, MSVD, DiDeMo, and ActivityNet. Code and data can be found at www.robots.ox.ac.uk/~vgg/research/collaborative-experts/. This paper contains a correction to results reported in the previous version.
研究の動機と目的
- 事前学習済みの単一モダリティ専門家(例: objects、actions、speech、OCR)を活用して、動画-テキスト検索の注釈コストを削減する。
- 自由形式のテキストクエリで照会できる堅牢で固定長の動画表現を開発する。
- 協調ゲーティングが、多様で部分的に利用可能な手掛かりの効果的な統合を可能にすることを示す。
- 複数のデータセットを横断してアプローチを評価し、一般化可能性と従来手法に対する相対的な利得を確立する。
提案手法
- 複数の事前学習済み単一モダリティ専門家を組み合わせて、タスク固有の埋め込みへと統合し、ジョイントな動画-テキスト埋め込みを構築する。
- 協調ゲーティングモジュールを適用し、ペアワイズの専門家関係を計算してアテンションベクトルを生成し、専門家表現を調整する。
- 専門家埋め込みを共通次元へ射影し、Gated Embedding Module (GEM) を用いて正規化された埋め込みを取得する。
- 文クエリを文脈単語埋め込みでエンコードし NetVLAD で集約し、専門家ごとにサブ空間へ射影してジョイントテキスト埋め込みを形成する。
- ビデオとテキストのエンコーダを双方向最大マージンランキング損失で共同学習する。
- 欠落した専門家をゼロパディングして混合ウェイトを再正規化し、類似度スコアを一貫して維持する。
実験結果
リサーチクエスチョン
- RQ1多様な事前学習済み専門家の表現を集約して、動画とテキストのジョイント埋め込みを効果的に学習できるか。
- RQ2一般的な手掛かり(動作、外観、シーン)と特定の手掛かり(ASR、OCR、画面上のテキスト)が検索性能にどの程度寄与するか。
- RQ3協調ゲーティング機構は、動画-テキスト検索における専門家間の情報統合を改善するか。
- RQ4提案する CE フレームワークは、標準的なビデオ検索ベンチマークにおいて従来手法と比較してどう位置づけられるか。
主な発見
- Collaborative Experts は、複数のベンチマーク(MSR-VTT、LSMDC、MSVD、DiDeMo、ActivityNet)にわたって、ベースラインより一貫して検索性能を向上させる。
- 強力な一般的手掛かり(外観、動作、シーン)は堅牢なベースラインを提供する一方、特定の手掛かり(ASR、OCR、画面上のテキスト)は有用だが、断続的に利用可能な場合の活用は困難である。
- 協調ゲーティング機構(専門家間のペアワイズ関係)は、従来手法よりも優れた融合とよりコンパクトなパラメータ化を生み出す。
- 訓練キャプションの本数を増やすと、より多くの専門家を追加するのと同程度の性能向上が得られ、複数キャプションと複数専門家を併用することで最も強い結果が得られる。
- CE は、MSR-VTT、LSMDC、MSVD、DiDeMo、ActivityNet などのいくつかのベンチマークで、ビデオ-to-text および text-to-video の検索設定において競争力があり、または最先端の結果を達成する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。