QUICK REVIEW

[論文レビュー] Combining Optimal Control and Learning for Visual Navigation in Novel Environments

Somil Bansal, Varun Tolani|arXiv (Cornell University)|Mar 6, 2019

Robotic Path Planning Algorithms参考文献 62被引用数 37

ひとこと要約

LB-WayPtNavは、RGB入力のみを用いてゴールへナビゲートするために、学習ベースの知覚モジュールとモデルベースのプランナー、LQR追従を統合し、未知の屋内環境でエンドツーエンドや純粋な幾何的アプローチを上回る。シミュレーションから実機ロボットへの転移を微調整なしで実現する。

ABSTRACT

Model-based control is a popular paradigm for robot navigation because it can leverage a known dynamics model to efficiently plan robust robot trajectories. However, it is challenging to use model-based methods in settings where the environment is a priori unknown and can only be observed partially through on-board sensors on the robot. In this work, we address this short-coming by coupling model-based control with learning-based perception. The learning-based perception module produces a series of waypoints that guide the robot to the goal via a collision-free path. These waypoints are used by a model-based planner to generate a smooth and dynamically feasible trajectory that is executed on the physical system using feedback control. Our experiments in simulated real-world cluttered environments and on an actual ground vehicle demonstrate that the proposed approach can reach goal locations more reliably and efficiently in novel environments as compared to purely geometric mapping-based or end-to-end learning-based alternatives. Our approach does not rely on detailed explicit 3D maps of the environment, works well with low frame rates, and generalizes well from simulation to the real world. Videos describing our approach and experiments are available on the project website.

研究の動機と目的

完全な3D地図を持たない未知で散乱した屋内環境でのナビゲーションに対処する。
一人称RGB画像から高レベルのウェイポイントを予測するために学習を活用する。
滑らかなスプライン軌道とLQR追従を用いたモデルベースのプランナーによる堅牢な制御。
実世界の微調整なしでシミュレーションから実機への転送を可能にする。
人間のラベリングを必要とせず、最適ウェイポイント生成のデータ効率的な学習信号を提供する。

提案手法

知覚モジュール：CNNは現在のRGB画像、ロボット座標系の目標、および現在の速度から次のウェイポイントを予測する。
プランニングモジュール：システム動力学の下で、現在の状態と予測ウェイポイントの間に3次スプライン軌道を作成。
制御：スプライン軌道を追従するためのLQRベースのフィードバック制御と制御信号の実行。
訓練：既知マップでMPCを用いて計算された最適ウェイポイントによる監視（監督信号）、実世界のラベリングは不要。
評価：シミュレーションとTurtleBot 2上で、LB-WayPtNavをエンドツーエンド学習および深度ベースの幾何マッピング/プランニングのベースラインと比較。

実験結果

リサーチクエスチョン

RQ1未知の環境で衝突を回避するウェイポイントを学習ベースの知覚モジュールが予測し、効率的で滑らかなモデルベースのナビゲーションを実現できるか？
RQ2学習と最適制御を結合することは、純粋な学習ベースまたは純粋な幾何アプローチと比較して成功率、速度、軌道の滑らかさを向上させるか？
RQ3このアプローチはシミュレーションから実世界のロボットへ、微調整なしにどれだけうまく転送できるか？
RQ4新規環境における純粋に反応的でランドマークなしのナビゲーション方針の限界と失敗モードは何か？

主な発見

Agent	Input	Success (%)	Time taken (s)	Acceleration (m/s^2)	Jerk (m/s^3)
Expert	Full map	100	10.78 ±2.64	0.11 ±0.03	0.36 ±0.14
LB-WayPtNav (our)	RGB	80.65	11.52 ±3.00	0.10 ±0.04	0.39 ±0.16
End To End	RGB	58.06	19.16 ±10.45	0.23 ±0.02	8.07 ±0.94
Mapping (memoryless)	Depth	86.56	10.96 ±2.74	0.11 ±0.03	0.36 ±0.14
Mapping	Depth + Spatial Memory	97.85	10.95 ±2.75	0.11 ±0.03	0.36 ±0.14

LB-WayPtNavは、シミュレーションにおいてエンドツーエンド学習より高い成功率、より速いゴール到達、より滑らかな軌道を達成する。
RGB入力を用いたシミュレーションでは、LB-WayPtNavは80.65%の成功、エンドツーエンドは58.06%、成功エピソードの平均所要時間は11.52s vs 19.16s。
深度ベースの幾何マッピング基準と比較して、RGB入力のLB-WayPtNavは深度ベース法が理想的な場合に近づく/同等になるが、深度センサノイズ下で劣化し、RGBベースの頑健性を強調する。
TurtleBot 2でのハードウェア実験は、LB-WayPtNavが95%の成功率、End-to-Endが50%、LB-WayPtNavはより滑らかな加速と低ジャーク（それぞれ0.09 m/s^2と3.01 m/s^3）を示す。
このアプローチは現実世界の微調整なしにシミュレーションから実機へ一般化するが、外観の大きなドメインギャップは微調整を必要とすることがある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。