[論文レビュー] Masked Autoencoders As Spatiotemporal Learners
本論文は、時空パッチをマスクして画素を再構成することで、Masked Autoencoders(MAE)を時空ビデオデータに拡張し、最小限の領域バイアスで強力な自己教師あり表現を実現し、顕著なスピードアップを達成する。
This paper studies a conceptually simple extension of Masked Autoencoders (MAE) to spatiotemporal representation learning from videos. We randomly mask out spacetime patches in videos and learn an autoencoder to reconstruct them in pixels. Interestingly, we show that our MAE method can learn strong representations with almost no inductive bias on spacetime (only except for patch and positional embeddings), and spacetime-agnostic random masking performs the best. We observe that the optimal masking ratio is as high as 90% (vs. 75% on images), supporting the hypothesis that this ratio is related to information redundancy of the data. A high masking ratio leads to a large speedup, e.g., > 4x in wall-clock time or even more. We report competitive results on several challenging video datasets using vanilla Vision Transformers. We observe that MAE can outperform supervised pre-training by large margins. We further report encouraging results of training on real-world, uncurated Instagram data. Our study suggests that the general framework of masked autoencoding (BERT, MAE, etc.) can be a unified methodology for representation learning with minimal domain knowledge.
研究の動機と目的
- MAEが最小限の帰納バイアスで効果的な時空間ビデオ表現を学習できるかを調査する。
- 高いマスキング比が学習効率とビデオタスクの性能に与える影響を検証する。
- MAEの事前学習と教師あり事前学習を比較評価し、現実世界の未整備データへのスケーラビリティを検討する。
提案手法
- スペースタイムのランダムなパッチをマスキングして画素を再構成することで、MAEを動画へ拡張する。
- パッチ埋め込みと位置埋め込みを時空間対応コンポーネントとして用い、素のVision Transformerをエンコーダ/デコーダとして使用する。
- 情報利用を最大化し非常に高いマスキング比を実現するため、時空間非依存のランダムマスキングを採用する。
- マスク領域の予測と元の画素ターゲットとの平均二乗誤差で訓練する。
- 下流のビデオ認識データセット(Kinetics-400、AVA、SSv2)でファインチューニングしてエンドツーエンドで評価する。
- データ前処理、マスクサンプリング戦略、デコーダ容量を探索し、効率と性能のトレードオフを検討する。
実験結果
リサーチクエスチョン
- RQ1動画データでのMAE事前学習は、ゼロからの学習と比較して下流の動画認識性能を改善するか?
- RQ2動画MAEにおける精度と計算量の最良のトレードオフをもたらすマスキング比とマスキング戦略はどれか?
- RQ3同じデータセットまたはより大きなデータセットでの教師あり事前学習と比べて、動画データでのMAE事前学習はどうか?
- RQ4現実世界の未整備動画データでのMAE事前学習は、標準的な動画ベンチマークへ効果的に転移できるか?
- RQ5デコーダサイズと再構成ターゲットの選択に対する結果の感度はどうか?
主な発見
- MAE事前学習は複数のViTサイズで、ゼロからの学習に比べて大幅に動画認識精度を向上させる。
- 最適マスキング比は約90%で、長期訓練で最大95%まで、エンコーダの時間とメモリを大幅に削減(1/10未満)、データ読み込みのボトルネックにもかかわらず全体の経過時間で約4.1倍のスピードアップを実現する。
- 時空間非依存のマスキングは構造認識に基づく戦略を上回り、最小限の時空間帰納的バイアスでもデータから効果的な表現を学べることを示唆する。
- Kinetics(および他の動画データセット)でのMAE事前学習は、教師あり事前学習やIN1KベースのMAE事前学習を、いくつかの下流タスク(AVA、SSv2)で上回ることがある。
- 現実世界のInstagram動画データでの事前学習(未整備)は、キュレーションされたデータセットと比較して競争力のある、または優れた転移結果をスケールで示し、大規模な自己教師付き動画学習の実用的潜在性を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。