[論文レビュー] HowTo100M: Learning a Text-Video Embedding by Watching Hundred Million Narrated Video Clips
本論文は HowTo100M を導入する。136M 本の narration 付きクリップと、最大マージン ranking loss で学習したテキスト-ビデオ埋め込みを提案し、 instructional データセットで最先端の結果を達成し、一般的なビデオ領域への転移も強い。
Learning text-video embeddings usually requires a dataset of video clips with manually provided captions. However, such datasets are expensive and time consuming to create and therefore difficult to obtain on a large scale. In this work, we propose instead to learn such embeddings from video data with readily available natural language annotations in the form of automatically transcribed narrations. The contributions of this work are three-fold. First, we introduce HowTo100M: a large-scale dataset of 136 million video clips sourced from 1.22M narrated instructional web videos depicting humans performing and describing over 23k different visual tasks. Our data collection procedure is fast, scalable and does not require any additional manual annotation. Second, we demonstrate that a text-video embedding trained on this data leads to state-of-the-art results for text-to-video retrieval and action localization on instructional video datasets such as YouCook2 or CrossTask. Finally, we show that this embedding transfers well to other domains: fine-tuning on generic Youtube videos (MSR-VTT dataset) and movies (LSMDC dataset) outperforms models trained on these datasets alone. Our dataset, code and models will be publicly available at: www.di.ens.fr/willow/research/howto100m/.
研究の動機と目的
- instructional videos から自動的に文字起こしされたナレーションを活用して、手動のキャプションなしで頑健なテキスト-ビデオ埋め込みを学習する動機付け。
- HowTo100M を用いた共同のビデオ-テキスト表現を訓練するための、スケーラブルで弱監督のデータセットを作成。
- 結果として得られる埋め込みが、instructional データセットでのテキストベースの検索とアクション定位に強い性能を示し、非 instructional ドメインへの転移が可能であることを示す。
- データ量(スケール)とサンプリング戦略が性能に重大な影響を及ぼすことを示す。
提案手法
- ビデオとキャプション特徴を、先行研究に触発された非線形ゲート付きプロジェクションを用いて共有の 4,096 次元空間へ写像する共同埋め込みを学習する。
- 正解のビデオ-キャプションペアを一緒に引き寄せ、負例を離す max-margin ranking loss で最適化し、関連コンテンツに焦点を当てるために intra-video negative sampling を用いる。
- ビデオクリップを時系列的に最大プーリングされた 2D/3D CNN 特徴で表現し、キャプションは単語埋め込み上の浅い Text CNN で表現する。
- HowTo100M 上で Adam を用いてエンドツーエンドに訓練し、正解ペアと不正解ペアの識別を促す固定マージンを使用する。
- 下流タスクに対するネガティブサンプリング戦略と訓練データ規模の影響を調査する。
実験結果
リサーチクエスチョン
- RQ1大規模で自動ペアリングされたテキスト-ビデオデータセットは、手動で注釈されたキャプションなしで強力な共同埋め込みを学習できるか。
- RQ2HowTo100M の事前訓練は、instructional データセットでのテキストベースのビデオ検索とアクション定位、および YouTube/LSMDC へのクロスドメイン転移にどのような影響を与えるか。
- RQ3サンプリング戦略と訓練データサイズが検索/定位性能に与える影響はどの程度か。
- RQ4HowTo100M での事前訓練が、非 instructional ビデオデータセットへの微調整にどの程度役立つか。
- RQ5データ量の増加は明確な飽和を示さず継続的な改善をもたらすか。
主な発見
- HowTo100M で訓練された共同のテキスト-ビデオ埋め込みは、instructional データセット(CrossTask, YouCook2)でテキストベースの定位と検索で最先端の成果を達成する。
- HowTo100M の事前訓練埋め込みは、非 instructional ドメイン(MSR-VTT, LSMDC)への転移を、これらデータセットでのファインチューニングとともに良好に行い、これらのデータセット上でスクラッチから訓練したモデルよりも優れている。
- intra-video negative sampling は、特に細粒度の instructional データセットで検索と定位の性能を大幅に改善する。
- 規模は重要で、HowTo100M データ量を増やすと飽和の兆候が見られず継続的な利得が得られ、さらなるデータが結果をさらに改善する可能性を示唆する。
- ターゲットデータセット(例:MSR-VTT, LSMDC)へのファインチューニングは substantial な向上をもたらし、特定のタスクでは完全監視ベースのベースラインを上回る場合がある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。