QUICK REVIEW

[論文レビュー] Watching the World Go By: Representation Learning from Unlabeled Videos

Daniel Gordon, Kiana Ehsani|arXiv (Cornell University)|Mar 18, 2020

Human Pose and Action Recognition参考文献 41被引用数 38

ひとこと要約

VINCEは、ラベルなし動画から画像表現を学習するために、マルチフレーム・マルチペアのノイズ対比推定を使用し、MoCoとImageNetで教師あり事前学習を超える性能を、いくつかの時系列タスクと非時系列タスクで達成する。

ABSTRACT

Recent single image unsupervised representation learning techniques show remarkable success on a variety of tasks. The basic principle in these works is instance discrimination: learning to differentiate between two augmented versions of the same image and a large batch of unrelated images. Networks learn to ignore the augmentation noise and extract semantically meaningful representations. Prior work uses artificial data augmentation techniques such as cropping, and color jitter which can only affect the image in superficial ways and are not aligned with how objects actually change e.g. occlusion, deformation, viewpoint change. In this paper, we argue that videos offer this natural augmentation for free. Videos can provide entirely new views of objects, show deformation, and even connect semantically similar but visually distinct concepts. We propose Video Noise Contrastive Estimation, a method for using unlabeled video to learn strong, transferable single image representations. We demonstrate improvements over recent unsupervised single image techniques, as well as over fully supervised ImageNet pretraining, across a variety of temporal and non-temporal tasks. Code and the Random Related Video Views dataset are available at https://www.github.com/danielgordon10/vince

研究の動機と目的

表現学習のために、単一画像のデータ拡張だけにとどまらず、自然な動画の変化（遮蔽、変形、視点の変化）を活用して前進させることを動機づける。
ラベルなし動画を用いて転移可能な画像表現を学習する自己教師付きフレームワークを提案する。
動画ベースの対比学習が、最近の無監督画像手法と監督付きImageNet事前学習の双方を、多様なタスクで上回ることを示す。
Random Related Video Views (R2V2) を、事前学習用のスケーラブルなラベルなし動画データセットとしての有効性を示す。
画像分類、シーン分類、アクション認識、物体追跡を含むさまざまなタスクで学習表現を評価する。

提案手法

2つの画像が同じ画像ではなく同じ動画から来たものかを学習するVideo Noise Contrastive Estimation (VINCE)を導入する。
同じ動画から複数のフレームをサンプリングしてアンカー–ポジティブの関係を形成し、マルチフレームのポジティブ対を用いる。
大規模なネガティブ集合と安定した学習を支えるため、メモリーバンクとモーメント（MoCo）を用いたノイズ対比推定を拡張する。
ブロック-diagonalマスキング戦略（Algorithm 1）で複数フレーム/動画からのポジティブをまとめて、バッチあたりのポジティブ対の数を増やすためにMulti-Pair NCEを適用する。
Random Related Video Views (R2V2) を構築: ~240kの未編集動画から約960kフレームを、各動画から4フレームを約5秒の間隔でサンプリングし、意味的多様性のためにImageNetクラスクエリに結び付けられたYouTube CC動画を使用する。
表現をフリーズして、タスクごとに軽量な分類器（linear、LSTM+linear）を訓練することで、下流タスクでVINCEを評価する。

実験結果

リサーチクエスチョン

RQ1ラベルなし動画は、単一画像のデータ拡張だけでは得られない転移可能な画像表現を生み出す監督信号を提供できるか。
RQ2マルチフレーム・マルチペア対比学習は、学習表現の意味的整合性と時系列理解を改善するか。
RQ3VINCEは、MoCoベースの手法やImageNetの監督付き pretrainingと比較して、画像、シーン、アクション、追跡タスクの範囲でどう性能を発揮するか。
RQ4事前学習データソースは重要である。R2V2（ImageNetクエリベース）はImageNetで卓越し、YouTube8MのURLは追跡でより広い利得を提供し、KineticsのURLはキネティクス関連の性能を強く向上させる。

主な発見

Test Task	ImageNet	SUN Scene	Kinetics 400	OTB 2015 Precision	OTB 2015 Success
Same Frame	0.358	0.450	0.318	0.555	0.403
Multi-Frame	0.381	0.478	0.361	0.622	0.464
Multi-Frame Multi-Pair	0.400	0.495	0.362	0.629	0.465

VINCEは、MoCoベースのベースラインおよび監督付きImageNet事前学習より、いくつかのタスクで改善をもたらす。
ImageNetおよびSUN Scenesでは、VINCEはMoCo-R2V2より優れており、シーンレベルの意味論への一般化能力が高い。
Kinetics 400（アクション認識）では、VINCEは強い時系列性能を発揮し、時系列ベースラインを上回る。
VINCEはオブジェクト追跡（OTB 2015）で堅牢な改善をもたらし、特にマルチフレーム・マルチペア設定を使用した場合に顕著な改善を示す。
アブレーションにより、マルチフレーム入力とマルチペアNCEを使用すると、標準の単一フレームNCEに比べて性能が大幅に向上し、より意味的タスクでより大きな利得が得られる。
事前学習データソースは重要である。R2V2（ImageNetクエリベース）はImageNetで卓越し、YouTube8MのURLは追跡でより広い利得を提供し、KineticsのURLはキネティクス関連の性能を強く向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。