QUICK REVIEW

[論文レビュー] Realtime Collision Avoidance for Mobile Robots in Dense Crowds using Implicit Multi-sensor Fusion and Deep Reinforcement Learning

Jing Liang, Utsav Patel|arXiv (Cornell University)|Apr 7, 2020

Evacuation and Crowd Dynamics参考文献 29被引用数 25

ひとこと要約

CrowdSteer は、2D ライダーと深度カメラデータの暗黙的マルチセンサ連合を用いたエンドツーエンドの深層強化学習手法を提案する。高精細な3DシミュレーションでPPO（Proximal Policy Optimization）により訓練され、通路や交差点など複雑で遮蔽の多い環境においても、リアルタイムで滑らかで衝突のない軌道を達成する。Turtlebot や Jackal などの実世界ロボットでも、先行手法を上回る成功確率、軌道の滑らかさ、平均到着時間の観点で優れた性能を発揮した。

ABSTRACT

We present a novel learning-based collision avoidance algorithm, CrowdSteer, for mobile robots operating in dense and crowded environments. Our approach is end-to-end and uses multiple perception sensors such as a 2-D lidar along with a depth camera to sense surrounding dynamic agents and compute collision-free velocities. Our training approach is based on the sim-to-real paradigm and uses high fidelity 3-D simulations of pedestrians and the environment to train a policy using Proximal Policy Optimization (PPO). We show that our learned navigation model is directly transferable to previously unseen virtual and dense real-world environments. We have integrated our algorithm with differential drive robots and evaluated its performance in narrow scenarios such as dense crowds, narrow corridors, T-junctions, L-junctions, etc. In practice, our approach can perform real-time collision avoidance and generate smooth trajectories in such complex scenarios. We also compare the performance with prior methods based on metrics such as trajectory length, mean time to goal, success rate, and smoothness and observe considerable improvement.

研究の動機と目的

従来の手法が遮蔽や予測不能な歩行者の動きによって失敗する、密集した動的群衆におけるリアルタイムで信頼性の高い衝突回避の課題に取り組む。
既存の学習ベースおよび古典的手法で一般的な振動的挙動を低減し、軌道の滑らかさを向上させる。
これまでにない屋内環境においても、高い歩行者密度が見られる状況で、シミュレーションから実世界への適応を強固に実現する。
明示的な運動予測を伴わず、動的障害物との複雑な相互作用を暗黙的に捉えるセンサ連合戦略を開発する。
狭い通路、T字路、L字路など、高い遮蔽と予測不能な歩行者行動を伴う多様な実世界シナリオで性能を評価する。

提案手法

本手法は、ロボットナビゲーションを部分的に観測可能なマルコフ決定過程（POMDP）として定式化し、PPO（Proximal Policy Optimization）を用いた深層強化学習により解く。
特徴量の明示的設計を伴わず、2D ライダーと RGB-D カメラからの生データを処理することで、暗黙的なマルチセンサ連合を実現し、ポリシーが複雑な障害物との相互作用を学習できるようにする。
振動的挙動と障害物への接近に対するペナルティを含む、独自に設計された報酬関数により、滑らかで安全な軌道を促進する。
実際の歩行者ダイナミクスを再現した高精細な3D屋内環境シミュレーションを用いてポリシーを訓練し、シミュレーションから実世界へのドメインギャップを低減する。
訓練されたポリシーは、差動走行の運動学的特性を持つ実際のロボット（Turtlebot 2 および Clearpath Jackal）に直接デプロイされ、リアルタイム推論を実現する。
本システムは、最大 3 人/m² の歩行者密度を伴う、遮蔽や狭い環境を含む、さまざまなシミュレーションおよび実世界シナリオで評価された。

実験結果

リサーチクエスチョン

RQ12D ライダーと深度カメラデータの暗黙的マルチセンサ連合は、単一センサ手法と比較して、密集した遮蔽環境における衝突回避性能を向上させるか？
RQ2高精細なシミュレーションで訓練された PPO ベースの深層強化学習ポリシーは、微調整なしに実世界の密集群衆ナビゲーションに適応できるか？
RQ3報酬関数に振動ペナルティを組み込むことで、動的ナビゲーションタスクにおける軌道の滑らかさはどの程度向上するか？
RQ4T字路、L字路、狭い通路など、高い歩行者密度と遮蔽を伴う複雑な実世界シナリオにおいて、CrowdSteer はどの程度の性能を示すか？
RQ5非常に高い密度（4 人/m² 以上）、反射面、または狭いパスなどの極端な条件下で、本手法の失敗モードは何か？

主な発見

CrowdSteer は、テストされたすべての実世界シナリオで 100% の成功確率を達成し、最大 3 人/m² の密集した群衆、T字路、L字路においても衝突が発生しなかった。
空き空間および静的障害物環境下で、振動ペナルティを導入した場合の平均軌道の振動回数は 2.0 回に低下し、導入しない場合の 9.8 回と比較して顕著な滑らかさの向上が確認された。
Fan らの手法と比較して、CrowdSteer は滑らかな軌道を生成し、特に遮蔽のある通路や突然現れる障害物の状況で振動的挙動を回避した。
アブレーションスタディの結果、深度カメラのみを用いた場合、成功確率が 100% に達せず、遮蔽に対する感受性も高かったが、センサ統合入力により著しく耐障害性が向上した。
ポリシーは、訓練データに存在しなかった高い歩行者ランダムネスと動的運動を伴う未確認の実世界環境に対しても、良好に一般化した。
失敗事例には、非常に広大な領域での振動的挙動、鋭角な旋回の困難さ、反射面や透明面、高い赤外干渉を伴う環境での制限が含まれた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。