Skip to main content
QUICK REVIEW

[論文レビュー] VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training

Tong Zhan, Yibing Song|arXiv (Cornell University)|Mar 23, 2022
Generative Adversarial Networks and Image Synthesis被引用数 431
ひとこと要約

VideoMAE は tube masking を用いた masked autoencoders が、データ効率の良い self-supervised pre-training を動画トランスフォーマーに提供し、小規模データセットで追加データなしでも高い性能を発揮する。

ABSTRACT

Pre-training video transformers on extra large-scale datasets is generally required to achieve premier performance on relatively small datasets. In this paper, we show that video masked autoencoders (VideoMAE) are data-efficient learners for self-supervised video pre-training (SSVP). We are inspired by the recent ImageMAE and propose customized video tube masking with an extremely high ratio. This simple design makes video reconstruction a more challenging self-supervision task, thus encouraging extracting more effective video representations during this pre-training process. We obtain three important findings on SSVP: (1) An extremely high proportion of masking ratio (i.e., 90% to 95%) still yields favorable performance of VideoMAE. The temporally redundant video content enables a higher masking ratio than that of images. (2) VideoMAE achieves impressive results on very small datasets (i.e., around 3k-4k videos) without using any extra data. (3) VideoMAE shows that data quality is more important than data quantity for SSVP. Domain shift between pre-training and target datasets is an important issue. Notably, our VideoMAE with the vanilla ViT can achieve 87.4% on Kinetics-400, 75.4% on Something-Something V2, 91.3% on UCF101, and 62.6% on HMDB51, without using any extra data. Code is available at https://github.com/MCG-NJU/VideoMAE.

研究の動機と目的

  • ベーシックな ViT バックボーンを用いた自己監督型動画事前学習(SSVP)において、マスクドオートエンコーディングが有効であることを示す。
  • 情報漏洩を避け、ハイレベルな時空間学習を促すよう、動画データに適したマスキング戦略(チューブマスキング)と再構成タスクを設計する。
  • VideoMAE が外部データを使わず relatively small な動画データセットで訓練できることを示し、対照学習/自己監督ベースラインと比較する。
  • マスキング比率、事前学習データの質/量、ドメインシフトが下流の転移性能に与える影響を分析する。

提案手法

  • ImageMAE からのマスクドオートエンコーダのパラダイムを採用するが、動画に合わせて 3Dキューブ(空間-時間)トークン化と非常に高いマスキング比率(90%–95%)を適用する。
  • 時系列ダウンサンプリングとキューブ埋め込みを用いて時空次元を削減する。
  • 同じマスキングマップをフレーム間で共有するチューブマスキングを実装し、時間的相関からの情報漏洩を緩和する。
  • より深いデコーダを備えた非対称のエンコーダ-デコーダアーキテクチャを採用し、マスクされた動画トークンの再構成を改善する。
  • 空間-時間の ViT バックボーンを結合して訓練し、マスクされたトークンのピクセル値を MSE 損失で再構成する。
  • SSVP ベンチマーク全体で、マスキング戦略、再構成ターゲット、事前学習データ、バックボーンに関する広範なアブレーションを行う。

実験結果

リサーチクエスチョン

  • RQ1VideoMAE は relatively small なデータセットでの自己監督型事前学習から、動画の有用な時空間表現を学習できるか。
  • RQ2チューブマスキングを用いた極めて高いマスキング比率(90–95%)は、他の戦略と比較してデータ効率と性能を向上させるか。
  • RQ3事前学習データの質、ドメインシフト、バックボーンの選択が、下流の動画タスクへの転移性能にどう影響するか?

主な発見

  • VideoMAE は外部データなしで小規模データセットで強い結果を達成(例:Kinetics-400 87.4%、Something-Something V2 75.4%、UCF101 91.3%、HMDB51 62.6%、ベーシックな ViT バックボーンで)。
  • 時間的冗長性のため、非常に高いマスキング比率(90–95%)は動画のマスクドモデリングに有利である。
  • チューブマスキングは時間的相関からの情報漏洩を防ぎ、ハイレベルな時空間構造の学習を促す。
  • VideoMAE は 3.5k 本の動画での訓練でも有効であり、SSVPのデータ効率を強調する。
  • 外部データなしでターゲット動画データの事前学習は、MoCo v3 やゼロからの訓練をいくつかのベンチマークで上回ることがあり、ドメインシフトが転移に影響する。
  • VideoMAE の AVA への転移は、Kinetics-400 で事前学習した ViT-B で 26.7 mAP を達成し、より大きなバックボーン/データでより高い mAPへスケールする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。