Skip to main content
QUICK REVIEW

[論文レビュー] Self-Supervised Video Representation Learning with Space-Time Cubic Puzzles

Dahun Kim, Donghyeon Cho|arXiv (Cornell University)|Nov 24, 2018
Human Pose and Action Recognition参考文献 27被引用数 27
ひとこと要約

本論文は、ラベルなし動画データを用いた3次元畳み込みニューラルネットワーク(3D CNN)の自己教師付き事前学習を目的とした、空間時間的3次立方体パズル(Space-Time Cubic Puzzles)という新たな事前学習タスクを提案する。ランダムに並べ替えられた3次元空間時間的クロップを再構築することで、モデルは空間的外観と時間的ダイナミクスの両方を学習し、2次元CNNベースの手法と比較してパrameter数が少ないにもかかわらずUCF101およびHMDB51で最先端の性能を達成した。

ABSTRACT

Self-supervised tasks such as colorization, inpainting and zigsaw puzzle have been utilized for visual representation learning for still images, when the number of labeled images is limited or absent at all. Recently, this worthwhile stream of study extends to video domain where the cost of human labeling is even more expensive. However, the most of existing methods are still based on 2D CNN architectures that can not directly capture spatio-temporal information for video applications. In this paper, we introduce a new self-supervised task called as extit{Space-Time Cubic Puzzles} to train 3D CNNs using large scale video dataset. This task requires a network to arrange permuted 3D spatio-temporal crops. By completing extit{Space-Time Cubic Puzzles}, the network learns both spatial appearance and temporal relation of video frames, which is our final goal. In experiments, we demonstrate that our learned 3D representation is well transferred to action recognition tasks, and outperforms state-of-the-art 2D CNN-based competitors on UCF101 and HMDB51 datasets.

研究の動機と目的

  • 動画理解における人的ラベル付けの高コストを解消するため、ラベルなし動画データのみを用いた自己教師付き表現学習を可能にすること。
  • 2次元CNNベースの自己教師付き学習の限界を克服し、3次元CNNが空間的外観と時間的ダイナミクスを同時に学習できるような事前学習タスクを開発すること。
  • 3次元CNNにおける自己教師付き事前学習と完全に教師ありのKinetics事前学習の性能格差を埋めること。
  • 自己教師付き学習で訓練された3次元CNNが、パrameter数が少ないにもかかわらず2次元CNNベースの自己教師付き手法を上回るか同等の性能を示すことを実証すること。

提案手法

  • 本手法は、動画クリップを3次元空間時間的クロップに分割し、ランダムに並び替えるという、空間時間的3次立方体パズルと呼ばれる新規な事前学習タスクを導入する。
  • ネットワークは、並び替えられた3次元クロップの元の空間時間的配置を予測するように訓練され、これにより連携された空間時間的表現が学習される。
  • アーキテクチャは、空間時間的ボリュームを直接処理できる3次元畳み込みニューラルネットワーク(3D CNN)を用い、動きと外観のエンドツーエンド学習を可能にする。
  • 学習目的は、3×3×3の立方体配置における6つのキューブの6! = 720通りの可能な並び替えの分類損失である。
  • ロバストネスと一般化性能を向上させるために、ランダムクロッピング、カラージッタリング、フレームドロップなどのデータ拡張技術が適用される。
  • 本手法は転移学習を用いて評価される:自己教師付きエンコーダーがUCF101やHMDB51などの下流の行動認識ベンチマークで微調整される。

実験結果

リサーチクエスチョン

  • RQ13次元空間時間的再構築に基づく自己教師付き事前学習タスクは、意味のある連携された空間時間的表現を3次元CNNが学習するために効果的であるか?
  • RQ2Space-Time Cubic Puzzlesからの学習は、2次元CNNベースの自己教師付き手法と比較して行動認識性能を向上させるか?
  • RQ33次元CNNを用いた自己教師付き事前学習は、ラベルの一部(Kineticsの1/8程度)しか使用しなくても、完全に教師ありのKinetics事前学習の性能にどれほど近づけるか?
  • RQ43次元CNNで学習されたフィルタは、ImageNetやKinetics事前学習のフィルタと比較して、時間的ダイナミクスをどれほど適切に捉えているか?

主な発見

  • 3D ResNet-18を用いてUCF101で75.3%のトップ1精度を達成し、Odd-One-Out手法を+15.0%上回り、優れた一般化性能を示した。
  • Kineticsのラベルの1/8しか使用しなくても、教師あり事前学習が自己教師付き手法と同等の性能を達成した。これは、ラベル付けコストの顕著な削減を示している。
  • 自己教師付きモデルは、ランダム初期化からの学習に比べてUCF101で+23.4%の性能向上を示し、強力な特徴学習能力を証明した。
  • 学習されたフィルタの可視化結果から、3次元フィルタは時間的ダイナミクスと構造を捉えており、Kinetics事前学習モデルのものに類似したパターンを示した。これは、2次元ImageNetフィルタとは対照的である。
  • アブレーションスタディの結果、ランダムジッタリングと分類を伴う回転(RWC)が性能向上に寄与しており、追加の文脈ベース自己教師付き学習の利点が示された。
  • パrameter数が少ない(11M~33M vs. AlexNetベースのモデルで58M)にもかかわらず、2次元CNNベースの自己教師付きアプローチを上回る性能を示した。これは、効率性と有効性の両面での優位性を証明した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。