QUICK REVIEW

[論文レビュー] CrowdMove: Autonomous Mapless Navigation in Crowded Scenarios

Tingxiang Fan, Xinjing Cheng|arXiv (Cornell University)|Jul 19, 2018

Evacuation and Crowd Dynamics参考文献 20被引用数 47

ひとこと要約

この論文は、ロバストな方策勾配強化学習を用いた一般化された3M訓練フレームワークを用いたマップレス navigation を提案し、混雑環境での複数のロボットタイプに対する安全な衝突回避を実現します。シミュレーションで訓練されたポリシーは、多様なプラットフォームとシナリオにおいて微調整なしで実機ロボットへ転移します。

ABSTRACT

Navigation is an essential capability for mobile robots. In this paper, we propose a generalized yet effective 3M (i.e., multi-robot, multi-scenario, and multi-stage) training framework. We optimize a mapless navigation policy with a robust policy gradient algorithm. Our method enables different types of mobile platforms to navigate safely in complex and highly dynamic environments, such as pedestrian crowds. To demonstrate the superiority of our method, we test our methods with four kinds of mobile platforms in four scenarios. Videos are available at https://sites.google.com/view/crowdmove.

研究の動機と目的

SLAMや地図に依存せず、高度にダイナミックな群衆の中をナビゲートするための堅牢なマップレス局所プランナーを開発する。
複数のロボットタイプ、シナリオ、ステージを横断した一般化を、スケーラブルな訓練フレームワークを介して実現する。
衝突回避とエンドツーエンドのナビゲーションを最適化するために、ポリシー勾配法を用いた強化学習を活用する。"
実機プラットフォームへ再訓練なしで、シミュレーションから学習ポリシーの転送性を実証する。）

提案手法

局所プランナーを、2Dレーザ測定、相対目標、現在の速度をステアリング命令へ写像するニューラルネットワークとしてモデル化する。
連続アクション空間を用いたPPOベースのポリシー最適化を、並列のマルチロボットフレームワークで訓練する。
堅牢性を高めるために、3Mフレームワーク：マルチロボット、マルチシナリオ、マルチステージ訓練を採用する。
指定係数を持つ、ゴール達成、衝突ペナルティ、滑らかさペナルティを組み合わせた報酬設計を用いる。
Stageを用いたシミュレートされたシナリオで訓練し、次に最小限の適応で実機ロボットへ転移する。"
ガウス分布ポリシーの平均速度を出力するネットワークを提供し、トレイン可能な対数標準偏差を持つ。"

実験結果

リサーチクエスチョン

RQ1強化学習を通じて学習したマップレス衝突回避ポリシーは、異なるロボットプラットフォーム間で一般化できるか。
RQ2マルチロボット・マルチシナリオ・マルチステージ訓練フレームワークは、高度にダイナミックな混雑環境における堅牢性を高めるか。
RQ3シミュレーションで訓練されたポリシーは、微調整なしで実世界のロボットへ転送できるか。
RQ4高密度の歩行者群において、ゴールへ到達しつつ衝突を回避する学習ポリシーの有効性はどの程度か。
RQ5報酬設計とカリキュラム学習が学習効率と性能に与える影響は何か。

主な発見

アプローチは、複雑な群衆の中で非運動学的ロボットの衝突回避可能なナビゲーションを実現する。
堅牢なポリシーは、再訓練なしで異なるモバイルプラットフォーム間で一般化する。
シミュレーションで訓練されたポリシーは、Turtlebot、Igor、人間に似たサービスロボット、 autonome shopping cart などの実機ロボットへ転移する。
2段階のカリキュラム学習は収束を加速し、ゼロからの訓練より高い報酬をもたらす。
並列のマルチロボット訓練はデータ収集とポリシー最適化の速度を大幅に向上させる。
実験は、さまざまな群衆シナリオでの安定した障害物・歩行者回避を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。