[論文レビュー] VIOLET : End-to-End Video-Language Transformers with Masked Visual-token Modeling
VIOLETは、全エンドツーエンドの Video Swin Transformer ベースの VidL モデルと、新しい Masked Visual-token Modeling 事前学習タスクを導入し、時間的ダイナミクスを明示的にモデリングしつつ、複数の text-to-video retrieval および video QA ベンチマークで最先端の成果を達成します。
A great challenge in video-language (VidL) modeling lies in the disconnection between fixed video representations extracted from image/video understanding models and downstream VidL data. Recent studies try to mitigate this disconnection via end-to-end training. To make it computationally feasible, prior works tend to "imagify" video inputs, i.e., a handful of sparsely sampled frames are fed into a 2D CNN, followed by a simple mean-pooling or concatenation to obtain the overall video representations. Although achieving promising results, such simple approaches may lose temporal information that is essential for performing downstream VidL tasks. In this work, we present VIOLET, a fully end-to-end VIdeO-LanguagE Transformer, which adopts a video transformer to explicitly model the temporal dynamics of video inputs. Further, unlike previous studies that found pre-training tasks on video inputs (e.g., masked frame modeling) not very effective, we design a new pre-training task, Masked Visual-token Modeling (MVM), for better video modeling. Specifically, the original video frame patches are "tokenized" into discrete visual tokens, and the goal is to recover the original visual tokens based on the masked patches. Comprehensive analysis demonstrates the effectiveness of both explicit temporal modeling via video transformer and MVM. As a result, VIOLET achieves new state-of-the-art performance on 5 video question answering tasks and 4 text-to-video retrieval tasks.
研究の動機と目的
- 固定ビデオ表現からの乖離を克服するために、エンドツーエンドの VidL モデリングを動機づける。
- Video Swin Transformer を用いて時間的ダイナミクスを明示的にモデリングする。
- Video パッチの離散視覚トークンを学習するために Masked Visual-token Modeling (MVM) を導入する。
- VT をクロスモーダル学習と MVM と組み合わせることで下流の VidL タスクが改善されることを示す。
- 複数の video QA および retrieval ベンチマークで最先端の結果を示す。
提案手法
- Video Swin Transformer を用いて、スパースにサンプリングされた動画フレームを明示的な時空間モデリングとともにエンコードする。
- テキスト入力を処理する Language Embedder と、動画と言語のモダリティを統合する Cross-modal Transformer を採用する。
- Masked Language Modeling (MLM)、Visual-Text Matching (VTM)、Masked Visual-token Modeling (MVM) の3つのタスクで事前学習を行う。
- MVM は離散 VAE (dVAE) を介してフレームをトークン化し、マスクされた視覚トークンを予測して元のパッチを再構成する。
- Blockwise Masking および Attended Masking を採用して、顕著なトークン/パッチに焦点を当てることで MLM および MVM の信号を強化する。
- YT-Temporal、WebVid、ConceptualCaptions データセットを含むカリキュラムで、画像-テキストおよび動画-テキストデータ上でエンドツーエンドに学習する。
実験結果
リサーチクエスチョン
- RQ1動画トランスフォーマーによる明示的な時間的モデリングは、VidL タスクにおいて単純な平均プーリングやフレーム特徴の連結よりも優れているか?
- RQ2Masked Visual-token Modeling (MVM) は、従来の視覚マスキング戦略(MRM/MFM)よりも動画言語事前学習で測定可能な利得をもたらすか?
- RQ3画像-テキストと動画-テキストデータの共同事前学習が、text-to-video retrieval および video QA の性能にどう影響するか?
- RQ4さまざまな事前学習データ(WebVid、CC、YT-Temporal)が下流の VidL タスクに与える影響は?
- RQ5MVM を用いたエンドツーエンドの VidL 学習は、複数のベンチマークで最先端の結果を達成できるか?
主な発見
- VIOLET は複数の text-to-video retrieval ベンチマークおよび video QA データセットで新たな最先端結果を達成する。
- Video Swin Transformer を用いた明示的な時間的モデリングは、mean pooling および frame-concatenation のベースラインより一貫した改善をもたらす。
- Masked Visual-token Modeling (MVM) は、MRM/MFM または MLMベースの視覚マスキングと比較して、下流の VidL パフォーマンスを取得・QAタスク全般で著しく改善する。
- WebVid+CC および YT-Temporal データでの事前学習は強力な改善をもたらし、WebVid+CC はクロスモーダル学習信号を堅牢に提供する。
- MVM を用いたエンドツーエンド訓練は、比較的控えめな計算資源とフレーム解像度でも恩恵を受け、より大規模手法と競合する性能を提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。