QUICK REVIEW

[論文レビュー] ATDN vSLAM: An all-through Deep Learning-Based Solution for Visual Simultaneous Localization and Mapping

Mátyás Szántó, György Richárd Bogár|arXiv (Cornell University)|Jun 13, 2022

Robotics and Sensor-Based Localization参考文献 45被引用数 3

ひとこと要約

本稿では、変分UNetバックボーンと、マップ符号化に向けた新規の埋め込み距離損失（EDL）を備えたモジュラーなアーキテクチャを用いた、エンドツーエンドのディープラーニングベースのビジュアルSLAMシステムであるATDN vSLAMを提案する。KITTI 00シーケンスにおいて、4.4%の並進誤差と0.0176 deg/mの回転誤差を達成し、オンラインオプティカルフローを用いない場合に0.006秒の低レイテンシで最先端の性能を示した。

ABSTRACT

In this paper, a novel solution is introduced for visual Simultaneous Localization and Mapping (vSLAM) that is built up of Deep Learning components. The proposed architecture is a highly modular framework in which each component offers state of the art results in their respective fields of vision-based deep learning solutions. The paper shows that with the synergic integration of these individual building blocks, a functioning and efficient all-through deep neural (ATDN) vSLAM system can be created. The Embedding Distance Loss function is introduced and using it the ATDN architecture is trained. The resulting system managed to achieve 4.4% translation and 0.0176 deg/m rotational error on a subset of the KITTI dataset. The proposed architecture can be used for efficient and low-latency autonomous driving (AD) aiding database creation as well as a basis for autonomous vehicle (AV) control.

研究の動機と目的

モノクローラルビジュアルSLAMの完全なエンドツーエンドのディープラーニングパイプラインの開発。従来のハンドクラフトされた手法の限界を克服することを目的とする。
最新のディープラーニングコンポonentsをモジュラーかつ相乗効果のあるフレームワークに統合し、ビジュアルオドメトリと密度マッピングを実現すること。
マップ表現と局所化精度の向上を目的として、新規の損失関数、埋め込み距離損失（EDL）を導入すること。
リアルタイムの自律走行アプリケーションおよびコラボラティブマッピングに適した、効率的で低レイテンシな動作を可能にすること。
将来の拡張の基盤とし、ループクロージャーや異なるデータセット間での一般化性の向上を図ること。

提案手法

システムは、統合的ビジュアルオドメトリとマップ符号化を実現するため、変分UNetに基づくエンコーダーデコーダーアーキテクチャを採用している。
オプティカルフローは、事前学習済みのGMAネットワークを用いて推定され、オフラインまたはオンラインのいずれかで実行される。
類似したキーフレーム間の埋め込み距離を最小化することで、マップ符号化部の学習を促進する新規の埋め込み距離損失（EDL）関数を導入した。
フレームワークは、光度損失とEDL損失の組み合わせを用いてエンドツーエンドで訓練され、事前学習済みオプティカルフローモデルを用いたトランスファー学習が適用された。
アーキテクチャはモジュラーであり、代替のオプティカルフロー推定器などの異なるコンポonentsを即座に統合可能である。
推論は低レイテンシを最適化しており、GPU上でオンラインフローなしでは1フレームあたり0.006秒、オンラインフローありでは0.27秒を達成している。

実験結果

リサーチクエスチョン

RQ1完全なエンドツーエンドのディープラーニングパイプラインは、最先端の従来手法と比較して、競争力のある性能を達成できるか？
RQ2提案された埋め込み距離損失（EDL）は、マップ表現と局所化精度の向上にどの程度効果的か？
RQ3オンラインオプティカルフロー推定を組み込む場合、推論速度と精度のトレードオフはどのようなものか？
RQ4KITTIベンチマークの00シーケンス以外のシーケンスに対しても、このシステムはどの程度一般化可能か？
RQ5モularityとトランスファーラーニングを活用することで、スケーラブルで効率的かつ拡張性のあるvSLAMフレームワークを構築できるか？

主な発見

ATDN vSLAMシステムは、KITTI 00シーケンスにおいて4.4%の並進誤差と0.0176 deg/mの回転誤差を達成し、最先端の性能を再現した。
オンラインオプティカルフローを用いない場合、1フレームあたり0.006秒の実行時間を達成し、高い効率性と低レイテンシを示した。
オンラインオプティカルフローを組み込むと、実行時間は0.27秒に増加したが、これはリアルタイムアプリケーションにとって依然として妥当な範囲であった。
定性的な結果から、システムは認識可能で整合性のあるトラジェクトリを生成しているが、他のシーケンスへの一般化は現在のところ限定的である。
提案された埋め込み距離損失（EDL）は、識別的なキーフレーム埋め込みを学習することで、正確な再局所化を可能にした。
モジュラー設計により、将来のループクロージャー統合や、複数GPUへの並列処理による性能向上が可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。