QUICK REVIEW

[論文レビュー] Geometric Loss Functions for Camera Pose Regression with Deep Learning

Alex Kendall, Roberto Cipolla|arXiv (Cornell University)|Apr 2, 2017

Advanced Vision and Imaging参考文献 47被引用数 82

ひとこと要約

この論文は、PoseNetの単純な損失関数を、再投影誤差や不確実性重み付き損失といった幾何学的意識のある目的関数に置き換える幾何的損失関数を提案する。シーンの幾何構造を活用し、最適なポーズ成分の重み付けを自動で学習することで、著しく精度が向上し、屋内データセットでは中央値の局所化誤差を0.13mおよび4.48°まで低下させ、大規模な屋外シーンでも1m未満の精度を達成する。伝統的なSIFTベースの手法との差を縮めつつ、リアルタイム推論を維持する。

ABSTRACT

Deep learning has shown to be effective for robust and real-time monocular image relocalisation. In particular, PoseNet is a deep convolutional neural network which learns to regress the 6-DOF camera pose from a single image. It learns to localize using high level features and is robust to difficult lighting, motion blur and unknown camera intrinsics, where point based SIFT registration fails. However, it was trained using a naive loss function, with hyper-parameters which require expensive tuning. In this paper, we give the problem a more fundamental theoretical treatment. We explore a number of novel loss functions for learning camera pose which are based on geometry and scene reprojection error. Additionally we show how to automatically learn an optimal weighting to simultaneously regress position and orientation. By leveraging geometry, we demonstrate that our technique significantly improves PoseNet's performance across datasets ranging from indoor rooms to a small city.

研究の動機と目的

PoseNetのロバスト性と高速性は保たれているが、そのメトリック精度が低いという問題に取り組む。
位置と姿勢の回帰をバランスさせるための手動ハイパーパramータチューニングの必要性を排除する。
損失関数を3次元シーンの幾何構造と再投影誤差に根ざさせることで、ポーズ推定の性能を向上させる。
屋内部屋から大規模な都市部まで多様な環境にわたり、ロバストでスケーラブルなエンドツーエンド学習を可能にする。

提案手法

シーンの整合性を直接最適化できるように、2次元-3次元再投影誤差に基づく幾何的損失関数を提案する。
位置と姿勢の成分間の最適な重み付けを自動で学習する不確実性重み付き損失を導入する。
幾何的制約をネットワークにバックプロパゲートするために、微分可能な再投影誤差レイヤーを用いる。
ホモスケダスティックな不確実性推定を用いて、トレーニング中に位置と回転の損失を適応的にバランスさせる。
別々の最適化ステップを回避するため、単一のステージでエンドツーエンドの学習パイプラインに損失関数を適用する。
RGB画像のみを用いて、1回の順伝播で6自由度のカメラポーズを回帰する。

実験結果

リサーチクエスチョン

RQ1幾何的制約は、深層学習ベースのカメラポーズ推定のメトリック精度を向上させることができるか？
RQ2位置と姿勢の損失をバランスさせるための手動ハイパーパramータチューニングの必要性を排除できるか？
RQ3再投影誤差を最適化することで、多様な環境にわたる一般化性能が向上するか？
RQ4標準的な回帰損失と比較して、幾何に基づく損失は、ロバスト性と精度の面で優れているか？

主な発見

7 Scenesデータセットでは、中央値の局所化誤差が位置で0.13m、姿勢で4.48°まで低下し、PoseNetのベースラインを著しく上回った。
Dubrovnikデータセットでは、平均位置誤差7.9m、平均姿勢誤差4.4°を達成し、元のPoseNetを上回り、SIFTベースの手法に近づいた。
チェスやファイアといった屋内シーンでは、提案された損失関数により、元のPoseNet損失と比較して誤差が最大70％まで低下した。
50,000m²の屋外シーンでも、中央値の位置誤差0.88mという1m未満の精度を達成し、大規模な領域へのスケーラビリティを示した。
不確実性に基づく損失は、最適な重み付けを自動で学習し、手動チューニングの必要性を排除した。
リアルタイム推論（1画像あたり5ms）を維持しながら、伝統的なSIFTベースの手法に近い性能を達成した。SIFTベースの手法はより大きな入力画像を必要とし、はるかに遅い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。