QUICK REVIEW

[論文レビュー] Learning to See by Moving

Pulkit Agrawal, João Carreira|arXiv (Cornell University)|May 7, 2015

Advanced Image and Video Retrieval Techniques参考文献 8被引用数 145

ひとこと要約

この論文では、自己教師あり学習を用いて、画像対から得られる自己モーション（エゴモーション）を予測するようにニューラルネットワークを訓練することで、視覚的特徴を学習する手法を提案している。同じ量の訓練データを用いた場合、シーン認識、オブジェクト認識、ビジュアルオドメトリ、キーポイントマッチングの複数のタスクで、クラスラベルによる教師あり事前学習を上回る性能を示しており、エゴモーションは汎用的特徴を学習するための強力で無料の信号であることが示された。

ABSTRACT

The dominant paradigm for feature learning in computer vision relies on training neural networks for the task of object recognition using millions of hand labelled images. Is it possible to learn useful features for a diverse set of visual tasks using any other form of supervision? In biology, living organisms developed the ability of visual perception for the purpose of moving and acting in the world. Drawing inspiration from this observation, in this work we investigate if the awareness of egomotion can be used as a supervisory signal for feature learning. As opposed to the knowledge of class labels, information about egomotion is freely available to mobile agents. We show that given the same number of training images, features learnt using egomotion as supervision compare favourably to features learnt using class-label as supervision on visual tasks of scene recognition, object recognition, visual odometry and keypoint matching.

研究の動機と目的

移動可能なエージェントにとって自然に入手可能なエゴモーションが、汎用的視覚的特徴を学習するための有効な教師信号として機能するかを調査すること。
何百万ものクラスラベル付き画像から学習された特徴と同等またはそれ以上の性能を示すエゴモーションに基づく事前学習が可能かどうかを検証すること。
エゴモーションによる教師あり特徴が、認識、オドメトリ、キーポイントマッチングを含む多様なビジョンタスクでどの程度の性能を示すかを評価すること。
従来の非教師あり手法（例：スローフィーチャー分析）と比較し、実世界のデータにおいて優れた性能を示すかを検証すること。

提案手法

エゴモーション中に記録された連続する画像対間の6自由度（6-DoF）カメラ変換（回転と並進）を予測するように深層ニューラルネットワークを訓練する。
共有重みを持つシアンズ型の二重ネットワークアーキテクチャを用いて画像対を処理し、相対的なカメラポーズを回帰する。
オドメトリセンサーやモーター制御命令から得られる教師信号を用いて、予測値と真値の変換の間の対照的損失（contrastive loss）を最小化するように学習する。
下流タスク用に、最終的な畳み込み層（例：AlexNetのconv-4またはconv-5）からの特徴を抽出する。
標準ベンチマークを用いて特徴を評価する：シーン認識にはSUN、ビジュアルオドメトリにはKITTI/SF、キーポイントマッチングにはPASCAL VOC、オブジェクト認識にはImageNetを用いる。
画像の対角線長でキーポイントマッチング誤差を正規化し、画像解像度の違いに対してスケール不変性を確保する。

実験結果

リサーチクエスチョン

RQ1エゴモーションは、複数のビジョンタスクに一般化可能な視覚的表現を学習するための自己教師あり信号として利用可能か？
RQ2同じ数の訓練画像を用いた場合、エゴモーションに基づく特徴学習はクラスラベルによる教師あり事前学習と比べてどの程度の性能を示すか？
RQ3実世界の動画データにおいて、エゴモーションに基づく事前学習は、スローフィーチャー分析などの既存の非教師あり手法を上回るか？
RQ4エゴモーションで学習した特徴は、ゼロショットまたは少数ショットの学習状況においてどの程度一般化可能か？

主な発見

SUNデータセットでは、エゴモーション事前学習特徴がシーン認識でトップ-1正解率76.8％を達成し、同じ数の画像で学習した場合、ImageNet教師あり特徴を上回った。
KITTIデータセットにおけるビジュアルオドメトリでは、エゴモーション事前学習モデルが中央値の並進誤差1.74mを達成し、最先端の教師ありモデルと同等の性能を示した。
PASCAL VOCにおけるキーポイントマッチングでは、エゴモーションで学習したKittiNet-1Mが平均マッチング誤差1.85ピクセル（正規化済み）を達成し、SIFTや他の非教師ありベースラインを上回った。
ImageNetでは、エゴモーション事前学習特徴がファインチューニング後に68.4％のトップ-1正解率を達成し、10万枚の画像のみで学習した場合でも、ImageNet教師あり特徴に近い性能に到達した。
同じKITTIおよびSFデータセットにおいて、スローフィーチャー分析を著しく上回り、エゴモーション教師あり学習による特徴の質の高さを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。