QUICK REVIEW

[論文レビュー] UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation.

Huaishao Luo, Lei Ji|arXiv (Cornell University)|Feb 15, 2020

Multimodal Machine Learning Applications参考文献 62被引用数 93

ひとこと要約

UniVLは、二重エンコーダ、クロスエンコーダ、デコーダアーキテクチャを備えた統合型ビデオ・言語事前学習モデルを提案する。5つの事前学習目的を用いて、マルチモーダル理解と生成を同時に最適化する。HowTo100Mで学習させた結果、5つの下流タスクで最先端性能を達成し、生成タスクにおける事前学習・微調整の乖離が低減されていることが示された。

ABSTRACT

With the recent success of the pre-training technique for NLP and image-linguistic tasks, some video-linguistic pre-training works are gradually developed to improve video-text related downstream tasks. However, most of the existing multimodal models are pre-trained for understanding tasks, leading to a pretrain-finetune discrepancy for generation tasks. This paper proposes UniVL: a Unified Video and Language pre-training model for both multimodal understanding and generation. It comprises four components, including two single-modal encoders, a cross encoder, and a decoder with the Transformer backbone. Five objectives, including video-text joint, conditioned masked language model (CMLM), conditioned masked frame model (CMFM), video-text alignment, and language reconstruction, are designed to train each of the components. We further develop two pre-training strategies, stage by stage pre-training (StagedP) and enhanced video representation (EnhancedV), to make the training process of the UniVL more effective. The pre-train is carried out on a sizeable instructional video dataset HowTo100M. Experimental results demonstrate that the UniVL can learn strong video-text representation and achieves state-of-the-art results on five downstream tasks.

研究の動機と目的

主に理解に最適化されたが生成タスクで性能が低いマルチモーダルモデルにおける事前学習・微調整の乖離を解消すること。
理解と生成の両方のタスクに同時に適応できる統合アーキテクチャを構築すること。
ビデオとテキストモダリティを効果的に統合し、条件付き生成を可能にする事前学習目的の設計。
段階的学習と強化されたビデオ表現戦略を通じて、訓練効率と表現品質を向上させること。
多様な下流タスクでの評価を通じて、理解と生成の両状況での有効性を検証すること。

提案手法

UniVLは、ビデオとテキストの単一モダリティエンコーダ、クロスモダリティ相互作用のためのクロスエンコーダ、自己回帰的生成のためのデコーダを備えたトランスフォーマー基盤アーキテクチャを採用する。
5つの事前学習目的が使用される：ビデオ・テキストの統合的事前学習、条件付きマスク言語モデル（CMLM）、条件付きマスクフレームモデル（CMFM）、ビデオ・テキストのアライメント、言語再構成。
2つの訓練戦略が用いられる：段階的学習（StagedP）により段階的に表現を洗練させ、強化されたビデオ表現（EnhancedV）によりビデオエンコーディング品質を向上させる。
事前学習は、ビデオとテキスト記述がペアで提供される大規模なインstructonalビデオデータセットであるHowTo100Mで実施される。
クロスエンコーダとデコーダは同時に最適化され、生成タスクにおけるマルチモーダル依存関係のエンドツーエンド学習が可能になる。
アーキテクチャはエンコーダ・デコーダモードとエンコーダオンativeモードの両方をサポートしており、理解と生成の両タスクに柔軟に対応できる。

実験結果

リサーチクエスチョン

RQ1統合的事前学習フレームワークは、マルチモーダル理解と生成タスクの両方を効果的にサポートできるか？
RQ2条件付きマスクモデリング目的（CMLMとCMFM）は、クロスモダリティ表現学習をどのように向上させるか？
RQ3段階的学習と強化されたビデオ表現は、モデル性能をどの程度向上させるか？
RQ4統合アーキテクチャは、従来のモデルで観察される事前学習・微調整の乖離を軽減するか？
RQ5多様なビデオ・テキスト下流タスクにおいて、UniVLは既存の最先端モデルと比べてどのように差をつけるか？

主な発見

UniVLは5つの下流ビデオ・テキストタスクで最先端性能を達成し、理解と生成のベンチマークの両方で優れた一般化性能を示した。
条件付きマスク言語およびフレームモデリング目的の使用により、クロスモダリティのアライメントと生成品質が顕著に向上した。
段階的学習戦略（StagedP）は、エンドツーエンド学習と比較して、モデルの収束性と最終的性能を向上させた。
強化されたビデオ表現戦略（EnhancedV）は、より強固なビデオ特徴量学習を実現し、下流タスクの結果向上に寄与した。
モデルは事前学習・微調整の乖離を低減し、従来のマルチモーダルモデルよりも生成タスクへの転送性が優れていた。
HowTo100Mにおける実証的結果から、UniVLは多様なタスクに一般化可能な豊富で転送可能なビデオ・テキスト表現を学習していることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。