Skip to main content
QUICK REVIEW

[論文レビュー] Self-supervised Spatiotemporal Feature Learning by Video Geometric Transformations

Longlong Jing, Yingli Tian|arXiv (Cornell University)|Nov 28, 2018
Human Pose and Action Recognition参考文献 35被引用数 76
ひとこと要約

本論文は、0°、90°、180°、270°回転などの幾何変換をプロキシタスクとして用いることで、人為的アノテーションデータを必要とせず、時間的・空間的動画特徴を学習する3DConvNetベースの自己教師ありフレームワークを提案する。この手法は最先端の性能を達成し、スクラッチからの学習と比較してUCF101では20.4%、HMDB51では16.7%のアクション認識精度を向上させ、それぞれ62.9%および33.7%のトップ1精度を達成した。

ABSTRACT

To alleviate the expensive cost of data collection and annotation, many self-supervised learning methods were proposed to learn image representations without human-labeled annotations. However, self-supervised learning for video representations is not yet well-addressed. In this paper, we propose a novel 3DConvNet-based fully self-supervised framework to learn spatiotemporal video features without using any human-labeled annotations. First, a set of pre-designed geometric transformations (e.g. rotating 0 degree, 90 degrees, 180 degrees, and 270 degrees) are applied to each video. Then a pretext task can be defined as recognizing the pre-designed geometric transformations. Therefore, the spatiotemporal video features can be learned in the process of accomplishing this pretext task without using human-labeled annotations. The learned spatiotemporal video representations can further be employed as pretrained features for different video-related applications. The proposed geometric transformations (e.g. rotations) are proved to be effective to learn representative spatiotemporal features in our 3DConvNet-based fully self-supervised framework. With the pre-trained spatiotemporal features from two large video datasets, the performance of action recognition is significantly boosted up by 20.4% on UCF101 dataset and 16.7% on HMDB51 dataset respectively compared to that from the model trained from scratch. Furthermore, our framework outperforms the state-of-the-arts of fully self-supervised methods on both UCF101 and HMDB51 datasets and achieves 62.9% and 33.7% accuracy respectively.

研究の動機と目的

  • 動画データのアノテーションコストの高さに対処するため、時間的・空間的動画特徴の自己教師あり学習を可能にすること。
  • 人為的ラベルデータに依存しない完全な自己教師ありフレームワークを構築し、動画表現学習のためのラベル依存性を排除すること。
  • 幾何変換プロキシタスクから得た事前学習特徴を用いて、アクション認識性能を向上させること。
  • 幾何変換が、意味のある時間的・空間的特徴を学習するための有効な教師信号であることを示すこと。

提案手法

  • 入力動画クリップに事前に定義された幾何変換(0°、90°、180°、270°回転)を適用する。
  • 3DConvNetを、適用された幾何変換を予測するプロキシタスクとして学習させ、その過程で時間的・空間的特徴を学習する。
  • 人為的アノテーションラベルを一切使用せず、変換予測タスクにのみ依存してエンドツーエンドで訓練する。
  • 学習された特徴は、アクション認識などの下流の動画分類タスクに微調整される。
  • 幾何変換によって誘発される空間的・時間的不変性を活用し、頑健な動画表現を学習する。
  • 汎化性と性能を評価するために、2つの大規模な動画データセット上でアプローチを評価する。

実験結果

リサーチクエスチョン

  • RQ1幾何変換は、自己教師あり動画表現学習のための有効な教師信号として機能するか?
  • RQ2人為的アノテーションなしで、3DConvNetが回転予測プロキシタスクを通じて時間的・空間的特徴をどれほど効果的に学習できるか?
  • RQ3この手法による事前学習は、スクラッチからの学習と比較して、下流のアクション認識性能をどの程度向上させるか?
  • RQ4標準ベンチマーク上で、このフレームワークは最先端の完全自己教師あり動画学習手法と比較してどのように性能を発揮するか?

主な発見

  • 提案手法はUCF101データセットで62.9%のトップ1精度を達成し、最先端の完全自己教師あり手法を上回った。
  • HMDB51データセットでは33.7%のトップ1精度を達成し、完全自己教師あり動画学習分野で新たな最先端を樹立した。
  • 幾何変換プロキシタスクによる事前学習は、スクラッチからの学習と比較してUCF101のアクション認識精度を20.4%向上させた。
  • この手法は、事前学習なしで学習したモデルと比較して、HMDB51のアクション認識性能を16.7%向上させた。
  • 回転などの幾何変換は、人為的アノテーションが存在しない状況下でも、代表的な時間的・空間的特徴を学習するのに有効である。
  • フレームワークはデータセット間で良好に一般化され、自己教師あり学習信号の頑健性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。