Skip to main content
QUICK REVIEW

[論文レビュー] Spatiotemporal Contrastive Video Representation Learning

Rui Qian, Tianjian Meng|arXiv (Cornell University)|Aug 9, 2020
Human Pose and Action Recognition参考文献 76被引用数 84
ひとこと要約

自己教師ありの対比学習フレームワーク CVRL は、時系列的一貫性のある空間拡張とサンプリングベースの時系列拡張を共同で活用し、ラベルなしビデオから強力な時空表現を学習します。線形プローブと下流タスクで評価。

ABSTRACT

We present a self-supervised Contrastive Video Representation Learning (CVRL) method to learn spatiotemporal visual representations from unlabeled videos. Our representations are learned using a contrastive loss, where two augmented clips from the same short video are pulled together in the embedding space, while clips from different videos are pushed away. We study what makes for good data augmentations for video self-supervised learning and find that both spatial and temporal information are crucial. We carefully design data augmentations involving spatial and temporal cues. Concretely, we propose a temporally consistent spatial augmentation method to impose strong spatial augmentations on each frame of the video while maintaining the temporal consistency across frames. We also propose a sampling-based temporal augmentation method to avoid overly enforcing invariance on clips that are distant in time. On Kinetics-600, a linear classifier trained on the representations learned by CVRL achieves 70.4% top-1 accuracy with a 3D-ResNet-50 (R3D-50) backbone, outperforming ImageNet supervised pre-training by 15.7% and SimCLR unsupervised pre-training by 18.8% using the same inflated R3D-50. The performance of CVRL can be further improved to 72.9% with a larger R3D-152 (2x filters) backbone, significantly closing the gap between unsupervised and supervised video representation learning. Our code and models will be available at https://github.com/tensorflow/models/tree/master/official/.

研究の動機と目的

  • ラベルなしデータから強力なビデオ表現を学習する動機付け。
  • 空間と時空の拡張が自己教師ありビデオ学習に与える影響を調査する。
  • 時系列の一貫性を保ちつつ有用な不変性を強制する拡張戦略を開発する。
  • より大きなバックボーンとデータ量でスケーラビリティを示し、教師ありビデオ事前学習との差を縮める。

提案手法

  • コントラスト損失(InfoNCE)を用い、同一ビデオから得られる二つの拡張クリップを引き寄せ、別ビデオのクリップを離す。
  • 3D-ResNet ボトルネック(デフォルトは R3D-50)をバックボーンとしてクリップをエンコードし、対比学習のために 128 次元の特徴を出力する投影ヘッドを用いる。
  • フレーム間で固定の乱数性を適用する時系列一貫性のある空間拡張を設計し、モーション手掛かりを保持する。
  • 二つのクリップ間の時間間隔が単調に減少する分布に従う時系列サンプリング拡張を実装し、近時系列クリップを強調する。
  • 大規模ミニバッチと同期化バッチ正規化で訓練し、固定されたバックボーン上で線形プローブによる評価と、半教師ありおよび下流タスクの微調整で評価する。

実験結果

リサーチクエスチョン

  • RQ1時空の拡張は、空間のみまたは時系列のみの手掛かりと比較して自己教師ありビデオ表現学習を改善できるか。
  • RQ2時系列ダイナミクスを保ちつつ強い空間的不変性を可能にする最適な拡張戦略はどれか。
  • RQ3CVRL は標準のビデオベンチマークでより大きなバックボーンとより多くのラベルなしデータでどのようにスケールするか。
  • RQ4CVRL の表現は半教師あり学習、アクション分類、検出タスクへどの程度転移するか。

主な発見

  • CVRL は線形評価で顕著な改善をもたらし、例:R3D-50 で Kinetics-600 のトップ1 が 70.4%、R3D-152 で 72.9%、教育付き教師あり手法との差を縮める。
  • CVRL は同じ膨張した 3D バックボーンの下で ImageNet インフレータと SimCLR インフレータのベースラインを上回り、K400 の線形評価で ImageNet 事前学習より 15% 以上、SimCLR より 18.8% 上回る。
  • 時系列一貫性のある空間拡張と単調減少の時系列サンプリング分布を組み合わせると大きな性能向上を得られ、CVRL 使用時は 63.8% トップ1、時系列一貫性なしの両拡張のみでは 52.3%。
  • データ量と大きいバックボーンは CVRL の性能を一貫して向上させる(例:前訓練エポックを 200 から 800、R3D-152 は K400/K600 で強力な結果を示す)。
  • 下流タスクでは、CVRL は UCF-101、HMDB-51、AV A アクション検出で競争力のある/強力な結果を達成し、K400–K600 で事前訓練した場合、単一モダリティを上回ることが多く、マルチモーダルのベースラインと同等となることがある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。