Skip to main content
QUICK REVIEW

[論文レビュー] Unsupervised Learning of Visual Representations using Videos

Xiaolong Wang, Abhinav Gupta|arXiv (Cornell University)|May 4, 2015
Advanced Image and Video Retrieval Techniques参考文献 51被引用数 202
ひとこと要約

本論文は、トラッキングされたパッチの時間的整合性を自己教師信号として用いることで、ラベルなしの動画を用いた視覚表現の教師なし学習手法を提案する。10万本のラベルなし動画から抽出された数百万個のトラッキングパッチを用いて、ランク付け損失を用いたシアンズ・トリプレットネットワークを訓練することで、PASCAL VOCオブジェクト検出で52%のmAPを達成。これはImageNetで教師あり学習されたモデルの54.4% mAPから2.4%以内であり、人為的ラベルは一切不要である。

ABSTRACT

Is strong supervision necessary for learning a good visual representation? Do we really need millions of semantically-labeled images to train a Convolutional Neural Network (CNN)? In this paper, we present a simple yet surprisingly powerful approach for unsupervised learning of CNN. Specifically, we use hundreds of thousands of unlabeled videos from the web to learn visual representations. Our key idea is that visual tracking provides the supervision. That is, two patches connected by a track should have similar visual representation in deep feature space since they probably belong to the same object or object part. We design a Siamese-triplet network with a ranking loss function to train this CNN representation. Without using a single image from ImageNet, just using 100K unlabeled videos and the VOC 2012 dataset, we train an ensemble of unsupervised networks that achieves 52% mAP (no bounding box regression). This performance comes tantalizingly close to its ImageNet-supervised counterpart, an ensemble which achieves a mAP of 54.4%. We also show that our unsupervised network can perform competitively in other tasks such as surface-normal estimation.

研究の動機と目的

  • 深層畳み込みニューラルネットワークにおける強力な視覚表現を学習するには、強力な意味的教師信号が必要かどうかを調査すること。
  • ラベルなし動画に十分な空間時間的構造が含まれており、効果的な自己教師付き表現学習を可能にするかを検討すること。
  • ImageNetや人為的ラベルデータセットに依存せずに、強力な視覚特徴を学習する手法を開発すること。
  • 学習された表現の一般化能力を、オブジェクト検出を越える下流タスクにおいて評価すること。

提案手法

  • 本手法は、教師なし動画トラッキングを用いて、ポジティブおよびネガティブなトリプレットを生成する:最初のフレームからのクエリパッチ、同じトラックの最後のフレームからのトラッキングパッチ、および別の動画からのランダムパッチ。
  • シアンズ・トリプレットネットワークアーキテクチャを採用し、ネットワークがクエリパッチとトラッキングパッチの特徴空間上の距離を、ランダムパッチよりも小さく学習するようにする。
  • ランク付け損失関数により、クエリパッチとトラッキングパッチ間の距離が、クエリパッチと任意のランダムパッチ間の距離よりも小さくなるように制約を課す。
  • ネットワークは10万本のラベルなし動画とそれらから抽出された合計800万個のパッチを用いて学習され、トラッキングの整合性のみを教師信号として使用する。
  • 事前学習後、PASCAL VOC 2012データセット上でオブジェクト検出のための微調整が行われるが、ImageNetでの追加事前学習は一切行わない。
  • さらに、NYUv2を用いた表面法線推定タスクでも評価され、最小限のデータで事前学習済み重みから微調整した結果、ImageNetの性能に近い結果を達成した。

実験結果

リサーチクエスチョン

  • RQ1人為的ラベルデータやImageNet事前学習なしに、ラベルなし動画から視覚表現を効果的に学習できるか?
  • RQ2動画トラッキングにおける時間的整合性が、識別的な深層特徴を学習するのに十分な教師信号を提供するか?
  • RQ3ウェブ規模の動画で教師なし学習したCNNの性能は、ImageNetで教師あり学習されたモデルと比較して、オブジェクト検出タスクでどの程度の水準に達するか?
  • RQ4教師なし表現学習は、表面法線推定のような他のビジョンタスクにも一般化可能か?
  • RQ5下流タスクにおいて、教師なし事前学習は、初期化から学習を開始する場合に比べてどの程度の性能向上をもたらすか?

主な発見

  • 教師なし事前学習済みCNNアンサンブルは、境界ボックス回帰なしでPASCAL VOC 2012オブジェクト検出で52%のmAPを達成し、初期化から学習を開始する場合に比べて4.7%高い性能を示した。
  • 教師なしモデルは52%のmAPを達成し、ImageNetで教師あり学習されたアンサンブル(54.4% mAP)から2.4%以内の性能であった。
  • NYUv2の表面法線推定タスクでは、事前学習済み重みから微調整した教師なしモデルが平均誤差34.2°を達成し、初期化から学習を開始した場合(38.6°)を上回り、ImageNet事前学習モデルの性能(33.3°)に近づいた。
  • NYUv2では、教師なしモデルが中央誤差21.9°を達成したのに対し、初期化から学習を開始した場合が26.5°、ImageNet事前学習モデルが20.8°であった。
  • 本手法は、動画内の時間的整合性が意味的ラベルなしで強力な教師信号として機能できることを示した。
  • 結果から、ウェブ規模の動画で教師なし事前学習を行うことで、複数のタスクで競争力のある特徴が得られることを示し、高性能なビジョンモデルには強力な教師信号が必要であるという仮定に疑問を呈した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。