QUICK REVIEW

[論文レビュー] Learning image representations equivariant to ego-motion.

Dinesh Jayaraman, Kristen Grauman|arXiv (Cornell University)|May 8, 2015

Advanced Vision and Imaging参考文献 26被引用数 19

ひとこと要約

本論文は、自己運動信号（プロ prioceptive）を活用して、自己運動に不変な視覚的表現を学習するための教師なし学習手法を提案する。畳み込みニューラルネットワーク（CNN）を、自己運動変換に対して体系的な特徴応答を示すように学習させることで、視覚認識および次の最良ビュー予測の性能が著しく向上し、自律走行映像を用いた大規模なシーン認識タスクにおいて最先端の結果を達成する。

ABSTRACT

Understanding how images of objects and scenes behave in response to specific ego-motions is a crucial aspect of proper visual development, yet existing visual learning methods are conspicuously disconnected from the physical source of their images. We propose to exploit proprioceptive motor signals to provide unsupervised regularization in convolutional neural networks to learn visual representations from egocentric video. Specifically, we enforce that our learned features exhibit equivariance i.e. they respond systematically to transformations associated with distinct ego-motions. With three datasets, we show that our unsupervised feature learning system significantly outperforms previous approaches on visual recognition and next-best-view prediction tasks. In the most challenging test, we show that features learned from video captured on an autonomous driving platform improve large-scale scene recognition in a disjoint domain.

研究の動機と目的

画像の物理的起源と視覚的学習の間の乖離を是正するため、視覚的表現学習にエゴモーション信号を統合すること。
エゴセントリック動画からの本体的運動信号を用いて、視覚的特徴を正則化する教師なし手法を開発すること。
自己運動変換に対して体系的に応答する視覚的表現を学習し、等長性を保証すること。
教師あり信号に依存せずに、視覚認識および次の最良ビュー予測の性能を向上させること。
学習された特徴が、例えば自律走行映像からの大規模なシーン認識といった別ドメインのタスクへも適用可能であることを示すこと。

提案手法

本手法は、IMUからのカメラ運動やオプティカルフローなどのエゴモーション信号を、CNNにおける特徴学習の正則化に用いる。
特定のエゴモーション変換（並進や回転）に対して特徴マップが予測可能に変化するように、等長性を強制する。
時間的に隣接するフレーム間で、既知のエゴモーションの下で一貫した特徴応答を促進するコントラスト損失を用いて、エンド・ツー・エンドでネットワークを訓練する。
運動に伴う等長性を維持するために、フレーム間で重みを共有する標準的な畳み込みニューラルネットワークのアーキテクチャを採用する。
本手法は教師なしで動作し、人為的ラベルなしに動画とエゴモーションデータのみに依存する。
一般化性能と性能を評価するために、3つのデータセット（自動走行プラットフォームを含む）で評価が行われる。

実験結果

リサーチクエスチョン

RQ1エゴモーション信号を用いて、関係のないシーン変化に対して不変で、自己運動に対して等長性を示す視覚的表現を学習できるか？
RQ2本体的運動信号を統合することで、エゴセントリック動画における教師なし視覚的表現学習がどのように向上するか？
RQ3エゴセントリック動画から学習した特徴が、異なるドメインの下流タスクへどの程度一般化可能か？
RQ4エゴモーションに対する等長性は、視覚認識および次の最良ビュー予測タスクの性能向上に寄与するか？
RQ5エゴモーション信号を用いた教師なし学習は、大規模なシーン認識タスクにおいて、先行の自己教師ありまたは教師ありベースラインを上回る性能を達成できるか？

主な発見

提案手法は、3つのデータセットで視覚認識および次の最良ビュー予測タスクにおいて、従来の教師なし手法を著しく上回る性能を達成した。
最も挑戦的なベンチマークにおいて、自律走行映像から学習した特徴が、別ドメインの大型シーン認識タスクの性能を向上させた。
学習された表現は自己運動に対して強く等長性を示しており、既知のカメラ運動の下で特徴が予測可能に変化する。
本システムは、人為的ラベルを一切使用せず、エゴモーション信号と動画のみに依存して最先端の結果を達成した。
本手法はドメインを越えて効果的に一般化し、エゴセントリック動画から学習した特徴が大規模なシーン理解タスクへも適用可能であることを示した。
本体的信号を教師なしの監視信号として用いることで、より強固で物理的に根拠のある視覚的表現が得られた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。