Skip to main content
QUICK REVIEW

[論文レビュー] Self-supervised Co-training for Video Representation Learning

Tengda Han, Weidi Xie|arXiv (Cornell University)|Oct 19, 2020
Human Pose and Action Recognition参考文献 72被引用数 273
ひとこと要約

本論文は、RGBと光学フローのビュー間でポジティブを交換する自己 supervision の共同学習フレームワーク CoCLR を提案し、対照学習を改善します。動画のアクション認識と検索において、UberNCE にほぼ近い性能を、より高い学習効率で実現します。

ABSTRACT

The objective of this paper is visual-only self-supervised video representation learning. We make the following contributions: (i) we investigate the benefit of adding semantic-class positives to instance-based Info Noise Contrastive Estimation (InfoNCE) training, showing that this form of supervised contrastive learning leads to a clear improvement in performance; (ii) we propose a novel self-supervised co-training scheme to improve the popular infoNCE loss, exploiting the complementary information from different views, RGB streams and optical flow, of the same data source by using one view to obtain positive class samples for the other; (iii) we thoroughly evaluate the quality of the learnt representation on two different downstream tasks: action recognition and video retrieval. In both cases, the proposed approach demonstrates state-of-the-art or comparable performance with other self-supervised approaches, whilst being significantly more efficient to train, i.e. requiring far less training data to achieve similar performance.

研究の動機と目的

  • インスタンス識別だけが自己教師あり学習のための動画データを最適に活用しているかを調査する。
  • 意味クラスからのハードポジティブが対照的な動画表現を改善できるかを評価する。
  • 補完的なビュー(RGBとフロー)間でポジティブを抽出する自己教師あり共同訓練スキーム(CoCLR)を提案する。
  • 学習表現を下流タスク(UCF101、HMDB51、Kinetics-400 のアクション認識と動画検索)で評価する。

提案手法

  • InfoNCEベースライン(インスタンス識別)を、意味ラベルを使用したオラクル UberNCE と比較する。
  • Cross-view ポジティブを採掘する CoCLR を導入する:フロー視点から RGB 訓練を拡張するトップK類似クリップを使用し、逆も同様。
  • 表現を段階的に改善するために RGB とフロー・ネットワークの最適化を交互に行う。
  • 二段階の訓練を使用する:(i) RGB とフローの独立した InfoNCE 事前訓練、(ii) クロスビュー・ポジティブを用いた交互の共同訓練。
  • 学習表現の移転性を測るために線形プローブと検索を用いて評価する。
Figure 1: Two video clips of a golf-swing action and their corresponding optical flows. In this example, the flow patterns are very similar across different video instances despite significant variations in RGB space. This observation motivates the idea of co-training, which aims to gradually enhanc
Figure 1: Two video clips of a golf-swing action and their corresponding optical flows. In this example, the flow patterns are very similar across different video instances despite significant variations in RGB space. This observation motivates the idea of co-training, which aims to gradually enhanc

実験結果

リサーチクエスチョン

  • RQ1意味クラスのポジティブ(UberNCE)を組み込むと、動画表現学習におけるインスタンスのみの InfoNCE より改善されるか。
  • RQ2RGB と光学フローの共同訓練はより難しいポジティブを抽出し、下流性能を改善できるか。
  • RQ3CoCLR は単一ビューの自己教師あり手法および UberNCE と比較して、アクション認識と検索でどう違うか。
  • RQ4トップK ポジティブマイニング(K)や交互サイクルなどのハイパーパラメータが CoCLR の性能に与える影響はどのようか。

主な発見

  • UberNCE は InfoNCE より優れており、インスタンス識別だけではデータ資源を浪費する可能性があることを示している。
  • CoCLR は InfoNCE および CMC を大幅に改善し、線形プローブのアクション認識(RGB)と検索で UberNCE の性能に近づく。
  • 二流の CoCLR(RGB+Flow)はさらに性能を向上させ、RGB と Flow のモデルが補完的な利得を提供する。
  • エンドツーエンドのファインチューニングは訓練手法間の性能ギャップを縮小するが、CoCLR は事前訓練の転移シナリオにおいて依然として優れている。
  • CoCLR は UCF101 および Kinetics-400 で他の自己教師あり手法と同等または最先端の結果を示し、訓練効率とデータ要件が高い。
Figure 3: Nearest neighbour retrieval results with CoCLR representations. The left side is the query video from the UCF101 testing set, and the right side are the top 3 nearest neighbours from the UCF101 training set. CoCLR is trained only on UCF101. The action label for each video is shown in the u
Figure 3: Nearest neighbour retrieval results with CoCLR representations. The left side is the query video from the UCF101 testing set, and the right side are the top 3 nearest neighbours from the UCF101 training set. CoCLR is trained only on UCF101. The action label for each video is shown in the u

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。