QUICK REVIEW

[論文レビュー] Deep Learning for Spacecraft Pose Estimation from Photorealistic Rendering

Pedro F. Proença|arXiv (Cornell University)|Jul 9, 2019

Space Satellite Systems and Control参考文献 34被引用数 38

ひとこと要約

論文は URSO を紹介する。フォトリアリスティックな Unreal Engine 4-based シミュレーターと、確率的 orientation soft classification を用いた深層学習フレームワークを提案し、単一画像から既知の宇宙機の 6D 姿勢を推定し、ESA チャレンジで高順位を達成（3rd synthetic, 2nd real）。

ABSTRACT

On-orbit proximity operations in space rendezvous, docking and debris removal require precise and robust 6D pose estimation under a wide range of lighting conditions and against highly textured background, i.e., the Earth. This paper investigates leveraging deep learning and photorealistic rendering for monocular pose estimation of known uncooperative spacecrafts. We first present a simulator built on Unreal Engine 4, named URSO, to generate labeled images of spacecrafts orbiting the Earth, which can be used to train and evaluate neural networks. Secondly, we propose a deep learning framework for pose estimation based on orientation soft classification, which allows modelling orientation ambiguity as a mixture of Gaussians. This framework was evaluated both on URSO datasets and the ESA pose estimation challenge. In this competition, our best model achieved 3rd place on the synthetic test set and 2nd place on the real test set. Moreover, our results show the impact of several architectural and training aspects, and we demonstrate qualitatively how models learned on URSO datasets can perform on real images from space.

研究の動機と目的

変化する照明条件や地球背景下で、既知の非協力宇宙機の単眼 6D 姿勢推定を動機づけ、実現する。
宇宙に類似したシーンで、DLモデルを訓練・評価するためのフォトリアリスティックなデータ生成器（URSO）を提供する。
角度の曖昧さを Gaussian mixture としてモデル化する orientation soft classification を用いた姿勢推定フレームワークを提案する。
シム-to-real 転送の有効性を示し、性能に影響を与えるアーキテクチャ/訓練要因を分析する。

提案手法

Earth テクスチャと深度マスクを用いてラベル付きデータを生成する、Unreal Engine 4-based のシミュレータ URSO を構築する。
簡略化したエンドツーエンドの姿勢推定ヘッドを備えた ResNet ベースのバックボーンを採用する。総損失には相対的な翻訳損失と orientation 項を用いる。
離散化された姿勢空間上の確率的ソフト分類による姿勢推定を提案する。ガウスカーネルエンコーディング (K) とテスト時の加重最小二乗回帰を用いる。
視野があいまいな場合に複数の姿勢仮説を回復するため、Gaussian Mixture Model を適合させる EM フレームワークによる多モダルな姿勢推定を導入する。
ランダムカメラ摂動を含むデータ拡張と、シム-to-real 後処理（グレースケール変換、露出/コントラストの変更、AWG ノイズ、ブラー、パッチドロップアウト）を用いて訓練する。
URSO データセットと ESA SPEED ベンチマークで評価し、姿勢回帰、ソフト分類、マルチモーダルアプローチを比較する。

実験結果

リサーチクエスチョン

RQ1フォトリアリスティックな Unity/UE4 ベースのシミュレータは、既知の宇宙機の単眼 6D 姿勢推定を堅牢に行えるラベル付きデータを提供できるか。
RQ2 orientation soft classification（確率的、Gaussian エンコード）は、ビューや照明が変化する中で姿勢推定の直接的な quaternion 回帰より優れているか。
RQ3データ拡張とシム-to-real 移行は実際の宇宙画像の性能にどのような影響を与えるか。
RQ4マルチモーダルな姿勢推定は、対称的またはあいまいなビューにおける知覚の曖昧さを効果的に解消できるか。

主な発見

URSO は、宇宙姿勢推定のための DL モデル訓練に用いる、ラベル付きの現実的な合成データを提供できる。
姿勢推定の角度精度において、 orientation soft classification は直接の姿勢回帰より優れている。
ガウス混合モデルを用いた多モーダル推定は、曖昧なビューの取り扱いを改善し、トップ2 の仮説検出を向上させる。
カメラの摂動を含むデータ拡張とシム-to-real 後処理は、シム-to-real 転送と実画像の精度を大幅に向上させる。
ESA SPEED ベンチマークでは、最良の単一モデルが real error 0.1630 および synthetic error 0.0604 を達成し、別のモデルが real 0.144 および synthetic 0.067 を達成、3モデルのアンサンブルでさらなる改善を得た（ランキング詳細：synthetic テストセットで 3rd、real テストセットで 2nd）。
このアプローチは、画像解像度とネットワーク深度に敏感であり、50-layer の ResNet は強力な性能を示し、高解像度が姿勢推定を支援する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。