[論文レビュー] VIMPAC: Video Pre-Training via Masked Token Prediction and Contrastive Learning
VIMPAC は VQ-VAE トークン上でのブロック単位のマスク付きトークン予測と対照学習を組み合わせた動画事前学習法で、時系列に重いデータセットで最先端の結果を、空間的に重いデータセットでも競争力のある結果を達成する。
Video understanding relies on perceiving the global content and modeling its internal connections (e.g., causality, movement, and spatio-temporal correspondence). To learn these interactions, we apply a mask-then-predict pre-training task on discretized video tokens generated via VQ-VAE. Unlike language, where the text tokens are more independent, neighboring video tokens typically have strong correlations (e.g., consecutive video frames usually look very similar), and hence uniformly masking individual tokens will make the task too trivial to learn useful representations. To deal with this issue, we propose a block-wise masking strategy where we mask neighboring video tokens in both spatial and temporal domains. We also add an augmentation-free contrastive learning method to further capture the global content by predicting whether the video clips are sampled from the same video. We pre-train our model on uncurated videos and show that our pre-trained model can reach state-of-the-art results on several video understanding datasets (e.g., SSV2, Diving48). Lastly, we provide detailed analyses on model scalability and pre-training method design. Code is released at https://github.com/airsplay/vimpac.
研究の動機と目的
- ローカルなトークンモデリングとグローバルなコンテンツ識別を組み合わせて堅牢な動画表現を学習する動機づけ。
- 動画の時空トークン相関を考慮したマスキング戦略の開発。
- 重いデータ拡張に依存しない対照的目的の活用。
- VQ-VAE によるトークン化表現を用いて未整理動画の効率的でスケーラブルな事前学習を実現。
提案手法
- 凍結済み VQ-VAE エンコーダを用いて動画フレームをトークン化し、フレームごとに離散トークンマップを得る。
- ブロック状の(3D 时空)マスキングを適用して難解な再構成ターゲットを作成する。
- マスク後予測の目的でトランスフォーマーエンコーダを用いてマスクされたトークンを再構成するように学習する。
- 並行して、InfoNCE を用いたトークン化クリップの対照学習を行い、ポジティブは同じ動画から、ネガティブは他の動画から取得する。
- マスク-予測損失とスケーリングされた対照損失を結合し、L = L_mask + alpha * gamma * L_cl というジョイント事前学習目的を作成。
実験結果
リサーチクエスチョン
- RQ1ブロック単位のマスキングは、離散化された動画トークンにおいて、均一マスキングよりも豊かな時空表現を生み出せるか。
- RQ2トークン再構成と対照的目的を組み合わせることで、グローバルで分離可能な動画表現が改善されるか。
- RQ3マスキング戦略、対照的サンプリング、トークン量子化といった事前学習設計が、時系列に重い動画データと空間的に重い動画データにどう影響するか。
- RQ4モデルサイズ、入力解像度、事前学習設定が下流の動画分類性能に与える影響はどうなるか。
主な発見
- VIMPAC は時系列に重いデータセット SSV2 および Diving48 で自己教師ありおよび教師あり前訓練の文脈で最先端の結果を達成。
- 空間的に重いデータセット(UCF101、HMDB51、Kinetics-400)では、VIMPAC は従来手法と比べて競争力のある結果を提供。
- ブロックマスキングはUCF101で下流の性能向上に寄与し、マスクトークン予測精度は低いにもかかわらずグローバル構造の学習が優れていることを示す。
- VIMPAC の対照学習は長距離のポジティブペア(最大約 400 秒)から恩恵を受け、過度なデータ拡張を必要としない。
- モデルサイズと空間/時空入力解像度を大きくすることは一般に下流の精度を向上させ、長いクリップは UCF101 で顕著な利得をもたらす。
- VQ-VAE トークン化を使用することで、ピクセルレベルの生成よりもノイズ除去/再構成が効率的になり、計算を削減しつつ有用な表現を保持できる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。