[論文レビュー] HERO: Hierarchical Encoder for Video+Language Omni-representation Pre-training
HEROは、局所的な統合のためのクロスモーダルトランスフォーマとグローバルな文脈のための時系列トランスフォーマを備えた、階層的な動画+言語事前学習モデルを導入し、時間的アライメントを学習する新しい事前学習タスク(VSMとFOM)を追加する。複数の動画+言語タスクで最先端を達成し、新しいベンチマークHow2RとHow2QAを導入する。
We present HERO, a novel framework for large-scale video+language omni-representation learning. HERO encodes multimodal inputs in a hierarchical structure, where local context of a video frame is captured by a Cross-modal Transformer via multimodal fusion, and global video context is captured by a Temporal Transformer. In addition to standard Masked Language Modeling (MLM) and Masked Frame Modeling (MFM) objectives, we design two new pre-training tasks: (i) Video-Subtitle Matching (VSM), where the model predicts both global and local temporal alignment; and (ii) Frame Order Modeling (FOM), where the model predicts the right order of shuffled video frames. HERO is jointly trained on HowTo100M and large-scale TV datasets to gain deep understanding of complex social dynamics with multi-character interactions. Comprehensive experiments demonstrate that HERO achieves new state of the art on multiple benchmarks over Text-based Video/Video-moment Retrieval, Video Question Answering (QA), Video-and-language Inference and Video Captioning tasks across different domains. We also introduce two new challenging benchmarks How2QA and How2R for Video QA and Retrieval, collected from diverse video content over multimodalities.
研究の動機と目的
- 細かなフレームとテキストのアライメントおよびグローバルなビデオ文脈を捉える、スケーラブルなマルチモーダル事前学習フレームワークを開発する。
- 局所的なフレーム文脈と字幕を融合し、グローバルな時間的表現を抽出する階層型エンコーダを活用する。
- 動画と言語間の局所的およびグローバルな時間的アライメントの両方を強制する事前学習タスクを設計する。
- 複雑な社会ダイナミクスや物語を学習するために、TV番組とHowTo100Mで事前学習データを多様化する。
- 多様なコンテンツにおけるマルチモーダル理解を評価するために、動画Q&Aとリトリーバルの新しいベンチマークを導入する。
提案手法
- 字幕文とそれに関連する動画フレームの局所融合のためのCross-modal Transformerを用いた階層型モデルを提案する。
- クロスモーダル出力から逐次的なグローバルな動画文脈を計算する時系列トランスフォーマを使用する。
- 4つの事前学習タスクを導入する:Masked Language Modeling (MLM)、Masked Frame Modeling (MFM)(2つのバリアント:MFFRとMNCE)、Video-Subtitle Matching (VSM)、Frame Order Modeling (FOM)。
- MLMでは、周囲のテキストと整列した視覚フレームを用いてマスクされたトークンを予測する。MFMでは、NCEベースの目的でマスクされた動画特徴を再構成または識別する。VSMでは、局所およびグローバルな字幕-動画のアライメントを学習する。FOMでは、フレームの一部をシャッフルした後、元のフレーム順序を予測する。
- TVとHowTo100Mデータセットで事前学習を行い、複数の下流タスクにおける最先端モデルとのアブレーションと比較を行う。
実験結果
リサーチクエスチョン
- RQ1階層型の動画+言語エンコーダは、字幕と動画フレーム間の時間的アライメントを平坦なアーキテクチャよりも効果的に活用できるか?
- RQ2新しい事前学習タスク(VSMとFOM)は、動画Q&Aやリトリーバルなどの下流タスクにおける時間的推論とアライメントを改善するか?
- RQ3多様なデータセット(TV番組と教育動画)での訓練が、さまざまな動画+言語ベンチマークでの性能にどう影響するか?
- RQ4提案された事前学習設定(MLM + MNCE + FOM + VSM)を下流タスクにおけるベースラインと比較したときの影響は?
- RQ5提案されたベンチマークHow2RとHow2QAは、動画コンテンツにおけるリッチなマルチモーダル理解を効果的に評価しているか?
主な発見
- Heroは、テキストベースの動画リトリーバル、動画QA、動画-言語推論を含む複数の下流タスクで新たな最先端結果を達成する。
- 最適な事前学習設定 MLM + MNCE + FOM + VSM は、TVR、TVQA、How2R、How2QAの全般で強力な性能を発揮する。
- 局所的な(クロスモーダル)およびグローバルな(時系列)融合を明示的に行う階層型エンコーダは、平坦なBERT系ベースラインよりも優れている。
- VSMは、局所およびグローバルな字幕-動画アライメントを学習することにより、動画モーメントリトリーバルを向上させ、特にリトリーバルタスクで利益を生む。
- FOMはQAタスクにおける時間的推論を助け、MNCEが用いられる場合にはMFFRは限定的な追加利得を提供する。
- Heroは、マルチチャネル(動画+字幕)とシングルチャネル(動画のみ)の設定の双方にうまく一般化し、タスク固有のSOTAモデルを上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。