[論文レビュー] Long-Form Video-Language Pre-Training with Multimodal Temporal Contrastive Learning
LF-VILAは、長尺の動画と段落データに対してエンドツーエンドの事前学習を可能にするMultimodal Temporal Contrastive lossとHierarchical Temporal Window Attentionを導入し、段落-to-動画検索と長尺動画QAで最先端の結果を達成します。
Large-scale video-language pre-training has shown significant improvement in video-language understanding tasks. Previous studies of video-language pretraining mainly focus on short-form videos (i.e., within 30 seconds) and sentences, leaving long-form video-language pre-training rarely explored. Directly learning representation from long-form videos and language may benefit many long-form video-language understanding tasks. However, it is challenging due to the difficulty of modeling long-range relationships and the heavy computational burden caused by more frames. In this paper, we introduce a Long-Form VIdeo-LAnguage pre-training model (LF-VILA) and train it on a large-scale long-form video and paragraph dataset constructed from an existing public dataset. To effectively capture the rich temporal dynamics and to better align video and language in an efficient end-to-end manner, we introduce two novel designs in our LF-VILA model. We first propose a Multimodal Temporal Contrastive (MTC) loss to learn the temporal relation across different modalities by encouraging fine-grained alignment between long-form videos and paragraphs. Second, we propose a Hierarchical Temporal Window Attention (HTWA) mechanism to effectively capture long-range dependency while reducing computational cost in Transformer. We fine-tune the pre-trained LF-VILA model on seven downstream long-form video-language understanding tasks of paragraph-to-video retrieval and long-form video question-answering, and achieve new state-of-the-art performances. Specifically, our model achieves 16.1% relative improvement on ActivityNet paragraph-to-video retrieval task and 2.4% on How2QA task, respectively. We release our code, dataset, and pre-trained models at https://github.com/microsoft/XPretrain.
研究の動機と目的
- 短尺動画を超える豊かな時間的ダイナミクスを捉えるため、長尺の動画と言語データからの学習を促進する。
- 長尺データ向けにビデオエンコーダ、テキストエンコーダ、クロスモーダルエンコーダを備えたエンドツーエンドのLF-VILAモデルを提案する。
- この Multimodal Temporal Contrastive (MTC) loss を設計して、動画クリップと文の時間的関係を整合させる。
- Transformerバックボーンで長距離依存性を効率的にモデル化するために、Hierarchical Temporal Window Attention (HTWA)を導入する。
- 7つの下流長尺動画言語タスクで強力な性能を示し、アブレーション実験と分析を提供する。
提案手法
- 3部構成のLF-VILAアーキテクチャ:ビデオエンコーダ、テキストエンコーダ、クロスモーダルエンコーダ。
- Clip- sentenceの時間関係を情報NCEベースの定式化で整合させるMultimodal Temporal Contrastive (MTC) loss。
- 効率と長距離モデリングのために、Transformer層全体で時間窓を段階的に拡大するHierarchical Temporal Window Attention (HTWA)。
- 2段階の事前学習:第1段階はクリップと段落の整合のためにglobalとMTC Lossを使用;第2段階は結合埋め込みに対してMLMとVideo-Text Matchingを使用。
- HD-VILA-100Mから構築されたLF-VILA-8M長尺動画-段落データで事前学習を行い、固定フレームサンプリングとSwin-Transformerバックボーンを採用。
実験結果
リサーチクエスチョン
- RQ1長尺動画-段落データでのエンドツーエンドの事前学習は、長尺動画言語理解タスクを改善しますか?
- RQ2クリップと文の時間的整合性(MTC)を組み込むことで、グローバル整合だけよりクロスモーダル表現は改善しますか?
- RQ3HTWAは高コストにならずに長尺動画の長距離依存性の効率的なモデリングを可能にしますか?
- RQ4短尺事前学習ベースラインと比較して、LF-VILAはparagraph-to-video retrievalと長尺動画QAタスクへどれだけ効果的に転移しますか?
主な発見
| 手法 | 事前学習データセット | R@1 | R@5 | R@50 | MedR |
|---|---|---|---|---|---|
| HSE | - | 20.5 | 49.3 | - | - |
| ClipBERT | COCO, Visual Genome | 21.3 | 49.0 | - | 6.0 |
| HD-VILA | HD-VILA-100M | 28.5 | 57.4 | 94.0 | 4.0 |
| Frozen | CC3M, WebVid-2.5M | 28.8 | 60.9 | - | 3.0 |
| Support Set | HowTo100M | 29.2 | 61.6 | 94.7 | 3.0 |
| TACo | HowTo100M | 30.4 | 61.2 | 93.4 | 3.0 |
| LF-VILA (Ours) | LF-VILA-8M | 35.3 | 65.4 | 95.0 | 3.0 |
- LF-VILAは複数のparagraph-to-video retrieved datasetsで最先端の成果を達成し、長尺データを用いた場合、ActivityNet paragraph-to-video retrievalで相対16.1%の改善、ActivityNet CaptionsのR@1でHD-VILAに対して23.9%の改善を達成。
- LF-VILAはDiDeMo、QuerYD、Condensed Movieでparagraph-to-video retrievalの従来法を上回り、R@1でデータセット全体にわたり実質的な向上。
- 長尺動画QAではHow2QAとVIOLINで新しいSOTAを達成し、ActivityNet QAでも競争力のある結果を示し、長距離推論の改善を示す。
- アブレーション実験では、より多くのフレームと長尺データでの長時間学習が性能を大幅に向上させること、MTCが追加の利得をもたらすこと、HTWAが固定大窓と比べて費用対効果の優れたトレードオフを提供することを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。