QUICK REVIEW

[論文レビュー] Virtual-to-real Deep Reinforcement Learning: Continuous Control of Mobile Robots for Mapless Navigation

Lei Tai, Giuseppe Paolo|arXiv (Cornell University)|Mar 1, 2017

Robotic Path Planning Algorithms参考文献 23被引用数 99

ひとこと要約

この論文は、10次元の疎なレーザ測域データと目標相対位置のみを用い、非同期深層強化学習でエンドツーエンドに訓練されたマップレス運動計画アルゴリズムを提示し、ファインチューニングなしに仮想から現実ロボットへの移行を実証する。

ABSTRACT

We present a learning-based mapless motion planner by taking the sparse 10-dimensional range findings and the target position with respect to the mobile robot coordinate frame as input and the continuous steering commands as output. Traditional motion planners for mobile ground robots with a laser range sensor mostly depend on the obstacle map of the navigation environment where both the highly precise laser sensor and the obstacle map building work of the environment are indispensable. We show that, through an asynchronous deep reinforcement learning method, a mapless motion planner can be trained end-to-end without any manually designed features and prior demonstrations. The trained planner can be directly applied in unseen virtual and real environments. The experiments show that the proposed mapless motion planner can navigate the nonholonomic mobile robot to the desired targets without colliding with any obstacles.

研究の動機と目的

疎な距離データと相対目標位置を入力として使用する、非ホロノミック移動ロボットのマップレス運動計画アルゴリズムを開発する。
連続的な操舵指令を出力するよう、非同期深層強化学習でエンドツーエンド訓練を行う。
ファインチューニングなしで仮想から実世界ロボットへの学習ポリシーの移行性を実証する。
仮想・現実条件の下で、ロバスト性を評価し、従来のマップベース計画アルゴリズムと比較する。

提案手法

状態 x_t が 10 次元の疎なレーザ測定、前の速度、および相対目標位置からなる連続制御 DRL 問題として定式化する。
アクターとクリティックネットワークを並行サンプル収集スレッドで訓練するため、非同期 DDPG（ADDPG）を用いる。
ネットワーク出力は、角速度は(-1,1)、線形速度は(0,1)に制約される連続値で、タンヘ則とシグモイド活性化を介して出力される。
仮想環境（V-REP）で2つの屋内レイアウトを用い、ターゲットをランダム化し、到着、衝突、ターゲットへの進捗を組み合わせた報酬を最適化して訓練する。
報酬：近づくと r_arrive、衝突時は r_collision、その他は c_r(d_{t-1}-d_t) ただし d_t は目標までの距離。
観測入力は 14 次元ベクトルに統合される（10-d レーザ測定、2-d 前速度、2-d 相対目標）。
ポリシーには 512 ノードの層を持つ3層の全結合クリティックとアクターを用いる。
Adam最適化器を使用し、出力を現実的なロボットの制限値に制限する（例：最大線形 0.5 m/s、最大角速度 1 rad/s）。

実験結果

リサーチクエスチョン

RQ1マップレスプランナーは、疎な範囲データとターゲット位置のみを用いて、非ホロノミックの差動駆動ロボットをナビゲーションできるよう学習できるか？
RQ2この設定で、非同期 DRL アプローチは連続制御の効率的な訓練を可能にするか？
RQ3学習したポリシーをファインチューニングなしで仮想シミュレーションから実世界のロボットへ移行できるか？
RQ4未知の環境における頑健性と速度の点で、マップレス計画アルゴリズムは従来のマップベース計画アルゴリズムとどのように比較されるか？

主な発見

10-dim の疎なレーザ測定値を用いてシミュレーションで訓練されたマップレス計画は、未見の仮想環境で衝突回避のナビゲーションを実現する。
ADDPG法は、サンプルスループットを高め、Q値収束を改善することで標準の DDPG と比較して訓練を加速する。
現実世界のテストでは、Env-2 訓練モデルが 10-dim Move Base が失敗した、または人間の介入を要したナビゲーションタスクを完了し、ファインチューニングなしの移行を実証した。
マップレス計画は1 ms程度で1回の決定を実行し、マップベースのベースラインよりもはるかに速い。
学習されたポリシーは複雑な室内環境で頑健性を示し、スパースな観測を持つ低コストセンサへ拡張可能。
必要時には自然にリカバリ行動（回転リカバリ）が現れ、実験中に衝突は観測されなかった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。