QUICK REVIEW

[論文レビュー] Learning a Text-Video Embedding from Incomplete and Heterogeneous Data

Antoine Miech, Ivan Laptev|arXiv (Cornell University)|Apr 7, 2018

Multimodal Machine Learning Applications参考文献 59被引用数 176

ひとこと要約

Mixture-of-Embedding-Experts (MEE) を提案し、異種で部分的に利用可能なデータから共同テキスト-ビデオ埋め込みを学習し、画像やモダリティ欠損のあるデータからの訓練を可能にし、複数のベンチマークで検索性能を向上させる。

ABSTRACT

Joint understanding of video and language is an active research area with many applications. Prior work in this domain typically relies on learning text-video embeddings. One difficulty with this approach, however, is the lack of large-scale annotated video-caption datasets for training. To address this issue, we aim at learning text-video embeddings from heterogeneous data sources. To this end, we propose a Mixture-of-Embedding-Experts (MEE) model with ability to handle missing input modalities during training. As a result, our framework can learn improved text-video embeddings simultaneously from image and video datasets. We also show the generalization of MEE to other input modalities such as face descriptors. We evaluate our method on the task of video retrieval and report results for the MPII Movie Description and MSR-VTT datasets. The proposed MEE model demonstrates significant improvements and outperforms previously reported methods on both text-to-video and video-to-text retrieval tasks. Code is available at: https://github.com/antoine77340/Mixture-of-Embedding-Experts

研究の動機と目的

大規模なラベル付き動画キャプションデータが乏しい場合でも、テキスト-ビデオ埋め込みの学習を動機づける。
異種ソース（画像、動画、顔、オーディオ）で欠損モダリティを伴う学習を可能にする。
入力テキストに条件付けられたモダリティ固有の専門家を重み付けする end-to-end の MEE モデルを提案する。
画像キャプションデータと顔の記述子を取り入れてデータ拡張を行い、検索性能を向上させる。
テキスト-動画および動画-テキスト検索ベンチマークで最先端の結果を示す。

提案手法

各記述子タイプ（外観、動作、音声、顔）ごとに別個の埋め込み（専門家）を学習する Mixture-of-Embedding-Experts (MEE) を導入する。
各記述子ストリームを時系列モジュール（NetVLAD または最大プーリング）で集約し、射影・コンテキストゲーティング・L2正規化を用いたゲート付き埋め込みモジュールで埋め込みを行う。
単語埋め込みの NetVLAD 集約でテキスト埋め込みを計算し、各専門家のテキスト表現を集約する。
テキストに条件付けられた重み w_i(X) = exp(h(X)^T a_i) / sum_j exp(h(X)^T a_j) で専門家埋め込みを重み付けし、最終的な類似度 s(X,Y) を形成する。
学習時または推論時にいくつかのストリームが欠如している場合でも、利用可能な専門家の重みを再正規化して欠損モダリティを扱う。
双方向の最大マージンランキング損失でテキスト-動画および動画-テキスト検索タスクを最適化する。

実験結果

リサーチクエスチョン

RQ1異種かつ部分的に利用可能なデータソース（画像、動画、顔、音声）から共同のテキスト-ビデオ埋め込みを学習できるか。
RQ2モダリティ別の専門家とテキスト条件付けの重み付けは、一部ストリームが欠損している場合に検索性能を向上させるか。
RQ3COCO の画像キャプションデータを動画キャプションデータと組み合わせ、顔の記述子を含めることで、テキスト-動画および動画-テキスト検索を改善できるか。
RQ4提案モデルは標準ベンチマーク（MPII/MSR-VTT）で従来の最先技術と比較してどう性能を示すか。

主な発見

評価タスク	手法	R@1	R@5	R@10	MR	MC 精度
テキスト→動画検索	ランダムベースライン	0.1	0.5	1.0	500	20.0
テキスト→動画検索	C+LSTM+SA+FC7 [57]	4.2	13.0	19.5	90	58.1
テキスト→動画検索	SNUVL [52]	3.6	14.7	23.9	50	65.7
テキスト→動画検索	CT-SAN [2]	5.1	16.3	25.2	46	67.0
テキスト→動画検索	Miech et al. [3]	7.3	19.2	27.1	52	69.7
テキスト→動画検索	CCA (FV HGLMM) [20]	7.5	21.7	31.0	33	72.8
テキスト→動画検索	JSFusion [58]	9.1	21.2	34.1	36	73.5
テキスト→動画検索	MEE + COCO + Face (提案手法)	10.1	25.6	34.6	27	73.9

MEE はテキスト-動画および動画-テキスト検索ベンチマーク（MPII/LSMDC および MSR-VTT）で従来手法を上回る。
COCO の画像キャプションデータを学習に組み込むと、COCO の画像と MPII の動画の両方で性能が向上し、COCO と顔の記述子を組み合わせるとさらに改善が得られる。
顔の記述子を含めると、人物が存在する場合に追加の改善が得られ、MEE は訓練時・推論時の欠損ストリームをうまく扱える。
LSMDC テストセットでは、COCO および Face を組み合わせた MEE が、列挙された手法の中で最良の結果を示す（Text-to-Video: R@1=10.1, R@5=25.6, R@10=34.6; Video-to-Text: MC=73.9）。
モデルは画像を動画として扱い、運動/音声なしでもデータ拡張を行えるため、画像-キャプションデータからのデータ拡張がスムーズに行える。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。