[論文レビュー] UniVL: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation
UniVL は、五つの目的を持つ映像-テキストデータの事前訓練の統一エンコーダ-デコーダフレームワークを提示し、ファインチューニング後に複数の映像言語タスクで最先端の結果を示す。
With the recent success of the pre-training technique for NLP and image-linguistic tasks, some video-linguistic pre-training works are gradually developed to improve video-text related downstream tasks. However, most of the existing multimodal models are pre-trained for understanding tasks, leading to a pretrain-finetune discrepancy for generation tasks. This paper proposes UniVL: a Unified Video and Language pre-training model for both multimodal understanding and generation. It comprises four components, including two single-modal encoders, a cross encoder, and a decoder with the Transformer backbone. Five objectives, including video-text joint, conditioned masked language model (CMLM), conditioned masked frame model (CMFM), video-text alignment, and language reconstruction, are designed to train each of the components. We further develop two pre-training strategies, stage by stage pre-training (StagedP) and enhanced video representation (EnhancedV), to make the training process of the UniVL more effective. The pre-train is carried out on a sizeable instructional video dataset HowTo100M. Experimental results demonstrate that the UniVL can learn strong video-text representation and achieves state-of-the-art results on five downstream tasks.
研究の動機と目的
- モ multimodal 映像言語事前訓練を動機づけ、理解と生成の両方のタスクをサポートする。
- 大規模な instructional videos から共通の映像-テキスト表現を学習する。
- 二つの単一モダリティエンコーダ、クロスエンコーダ、デコーダの柔軟なアーキテクチャを提案する。
- 学習を改善するために staged pre-training と enhanced video representation 戦略を導入する。
提案手法
- テキストと映像の別々のエンコーダを持つ二重ストリームアーキテクチャ、相互作用のためのクロスエンコーダ、Transformer ベースのデコーダ。
- 五つの事前訓練目的:video-text joint (MIL-NCE)、conditioned masked language model (CMLM)、conditioned masked frame model (CMFM)、video-text alignment、language reconstruction。
- Stage by stage pre-training (StagedP) により、完全な目的を適用する前にテキスト-ビデオ結合学習でモデルを温める。
- Enhanced video representation (EnhancedV) によりテキスト入力をマスクして映像駆動の生成を強制する。
- 下流タスクを五つのタスクでファインチューニングして汎用性を示す:text-based retrieval、multimodal captioning、action segmentation、action step localization、multimodal sentiment analysis。
実験結果
リサーチクエスチョン
- RQ1統一された映像-言語事前訓練フレームワークは、マルチモーダルな理解と生成の両方のタスクに対して強力な表現を学習できるか?
- RQ2joint エンコーダ-デコーダ事前訓練目的は、従来の単一ストリームや理解のみのモデルと比べて下流の映像-言語タスクの性能を改善するか?
- RQ3staged pre-training と enhanced video representation 戦略は、学習効率と下流の結果を有意に高めるか?
主な発見
- テキストベースの映像検索性能が強化され、UniVL (FT-Joint) の R@1 は Youcook2 で 22.2、MSR-VTT で 20.6。
- クロスエンコーダ融合による検索性能の改善、UniVL (FT-Align) は Youcook2 で R@1 = 28.9、MSR-VTT で R@1 = 21.2 を達成。
- Youcook2 における従来手法と比較してマルチモーダル映像キャプションの最先端の結果を達成。
- COIN でのアクションセグメンテーションの顕著な改善、UniVL が 70.02% フレーム精度を達成、CrossTask でのアクションステップ定位は 42.0 の平均リコール。
- CMU-MOSI での強力なマルチモーダル感情分析を実証、例えば UniVL がベースラインより BA と Corr が高い。
- HowTo100M(1.2M 本の動画)での事前訓練により、タスクを横断して一般化する映像-テキスト表現の効果的な学習を実現。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。