Skip to main content
QUICK REVIEW

[論文レビュー] Self-Improving Visual Odometry

Daniel DeTone, Tomasz Malisiewicz|arXiv (Cornell University)|Dec 8, 2018
Robotics and Sensor-Based Localization参考文献 22被引用数 31
ひとこと要約

本論文は、自らのVO出力を用いて反復的に自己教師付きで畳み込みニューラルネットワークのフロントエンドを改善する自己教師付きビジョウ・オドメトリーのフレームワークを提案する。ScanNetから得た250万枚の単眼画像を用いて訓練することで、不安定な特徴(例:光沢、動的物体)を抑制する安定性分類器を学習し、SIFT、ORB、SuperPoint、LF-Netを凌駕する3D-2Dポーズ推定およびトラジェクトリ推定タスクの性能を達成した。

ABSTRACT

We propose a self-supervised learning framework that uses unlabeled monocular video sequences to generate large-scale supervision for training a Visual Odometry (VO) frontend, a network which computes pointwise data associations across images. Our self-improving method enables a VO frontend to learn over time, unlike other VO and SLAM systems which require time-consuming hand-tuning or expensive data collection to adapt to new environments. Our proposed frontend operates on monocular images and consists of a single multi-task convolutional neural network which outputs 2D keypoints locations, keypoint descriptors, and a novel point stability score. We use the output of VO to create a self-supervised dataset of point correspondences to retrain the frontend. When trained using VO at scale on 2.5 million monocular images from ScanNet, the stability classifier automatically discovers a ranking for keypoints that are not likely to help in VO, such as t-junctions across depth discontinuities, features on shadows and highlights, and dynamic objects like people. The resulting frontend outperforms both traditional methods (SIFT, ORB, AKAZE) and deep learning methods (SuperPoint and LF-Net) in a 3D-to-2D pose estimation task on ScanNet.

研究の動機と目的

  • 外部からの監視や手動チューニングを一切行わず、時間経過とともに改善することができるビジョウ・オドメトリーのフロントエンドを学習する自己教師付き学習フレームワークの開発。
  • 従来のVOシステムや外部監視付きのVOシステムに見られる限界、すなわち新しい環境への適応に高価なデータ収集や手動でチューニングされたヒューリスティクスが必要となる問題の解決。
  • 単眼動画の時間的整合性に基づいて、動的物体、影、深度の不連続領域に存在する不安定なキーポイントを識別・抑制する安定性分類器を学習する。明示的なアノテーションは不要。
  • 特にホモロジー仮定が成立しない大基準距離条件下で性能が著しく低下する状況においても、従来の学習ベースおよび従来のVO手法を上回るポーズ推定の正確性を達成すること。

提案手法

  • マルチタスク畳み込みニューラルネットワークが、1回の順伝播で2次元キーポイント位置、記述子、および新規の点安定性スコアを予測する。
  • システムはVOバックエンドを用いて、フレーム間でのキーポイント追跡とバブル調整を実行し、3次元点を推定し、再投影誤差を計算する。
  • 再投影誤差が小さいとされる安定したキーポイントが、自己教師付きの信号として用いられ、フロントエンドネットワークを再訓練することで、閉ループ学習システムを構築する。
  • 安定性分類器は、再投影誤差に基づいて二値交差エントロピー損失を用いてエンドツーエンドで訓練され、明示的なアノテーションなしに不安定な特徴を抑制する能力を学習する。
  • 大規模なラベルなし単眼動画(ScanNetの250万枚の画像)を活用することで、反復的自己教師付き学習によりフロントエンドの継続的改善を可能にする。
  • バックエンドはRANSACを用いたPnPにより相対カメラポーズを推定し、安定性の信頼度値を最適化における重みとして用い、信頼性の低い対応を低減する。

実験結果

リサーチクエスチョン

  • RQ1ラベルなし単眼動画における時間的整合性に基づいて、外部監視なしにビジョウ・オドメトリー系が自己改善可能か?
  • RQ2学習された安定性分類器は、動的物体、光沢、深度の不連続領域に存在する不安定なキーポイントを効果的に抑制できるか?
  • RQ3VO出力を用いた自己教師付き学習により、従来の手法および学習ベースのベースラインと比較して、3D-2Dポーズ推定の正確性が向上するか?
  • RQ4ホモロジーに基づく監視が失敗する大基準距離条件下での性能はいかがなっているか?
  • RQ5安定性分類器は多様なシーンに一般化可能であり、不安定な画像領域を示す密度の高いヒートマップとして可視化可能か?

主な発見

  • 提案手法のSuperPointVOは、ScanNetデータセット上での3D-2Dポーズ推定において、SIFT、ORB、AKAZE、SuperPoint、LF-Netを上回り、30、60、90フレームの差においてそれぞれ1.5%、7.5%、15%の回転誤差の相対的改善を達成した。
  • VOバックエンドに安定性分類器を組み込むことで、10秒のサブトラジェクトリ全体で平均して回転誤差が7.5%、並進誤差が12.5%低減した。表2では最も優れた結果を太字で示した。
  • 安定性分類器は、照明の光沢、繰り返し模様、T字接合部などの不安定領域を効果的に特定・抑制しており、ScanNetおよびFreiburgデータセットの両方で密度の高い安定性ヒートマップとして可視化された。
  • 特にホモロジー仮定が崩れる非平面なシーンにおいて、SuperPointに比べて優れた広基準距離マッチング性能を示した。
  • 再訓練なしに新しい環境へも良好に一般化可能であり、安定性分類器が時間的整合性のみに基づいて、シーンに依存しない特徴を学習している。
  • 自己教師付きループにより継続的改善が可能である:フロントエンドは時間経過とともにより安定的で特徴的な特徴を検出できるようになり、手作業で設計されたヒューリスティクスへの依存が減少した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。