QUICK REVIEW

[论文解读] CrowdMove: Autonomous Mapless Navigation in Crowded Scenarios

Tingxiang Fan, Xinjing Cheng|arXiv (Cornell University)|Jul 19, 2018

Evacuation and Crowd Dynamics参考文献 20被引用 47

一句话总结

本文提出了一个用于无地图导航的通用 3M 训练框架，结合鲁棒策略梯度强化学习，在拥挤环境中实现对多种机器人类型的安全避撞。模拟中训练的策略能够在多种平台和场景中无需微调就转移到真实机器人。

ABSTRACT

Navigation is an essential capability for mobile robots. In this paper, we propose a generalized yet effective 3M (i.e., multi-robot, multi-scenario, and multi-stage) training framework. We optimize a mapless navigation policy with a robust policy gradient algorithm. Our method enables different types of mobile platforms to navigate safely in complex and highly dynamic environments, such as pedestrian crowds. To demonstrate the superiority of our method, we test our methods with four kinds of mobile platforms in four scenarios. Videos are available at https://sites.google.com/view/crowdmove.

研究动机与目标

开发一个健壮的无地图局部规划器，用于在高度动态的拥挤环境中导航，不依赖 SLAM 或地图。
通过可扩展的训练框架实现对多种机器人类型、场景和阶段的泛化。
利用带策略梯度方法的强化学习来优化避撞和端到端导航。
证明所学策略可以在不重新训练的情况下从仿真转移到真实平台。

提出的方法

将局部规划器建模为一个神经网络，将二维激光读数、相对目标和当前速度映射到转向指令。
在并行的多机器人框架中，使用基于 PPO 的策略优化，在连续动作空间中进行训练。
采用 3M 框架：多机器人、多场景、多阶段训练以增强鲁棒性。
使用奖励设计，将目标实现、碰撞惩罚和平滑性惩罚以指定系数结合起来。
使用 Stage 的模拟场景进行训练，然后在真实机器人上以最小的适配进行转移。
提供一个输出高斯策略均值速度的网络，可训练的对数标准差。

实验结果

研究问题

RQ1通过强化学习学习的无地图避撞策略是否可以跨不同机器人平台泛化？
RQ2多机器人、多场景、多阶段的训练框架是否能在高度动态的拥挤环境中提升鲁棒性？
RQ3在仿真中训练的策略是否可以在不进行微调的情况下转移到现实机器人？
RQ4在密集步行者人群中实现目标的同时，所学策略在避免碰撞方面的效果有多强？
RQ5奖励设计和课程学习对学习效率与性能的影响是什么？

主要发现

该方法使非完整运动约束的机器人在复杂人群中实现无碰撞导航。
鲁棒策略在不同移动平台上无需重新训练即可泛化。
在仿真中训练的策略可转移到真实机器人，如 Turtlebot、Igor、一个类人服务机器人，以及一辆自主购物车。
两阶段课程学习加速了收敛，并产生的奖励高于从零开始训练。
并行多机器人训练显著加速数据收集和策略优化。
实验在多种拥挤场景下显示出对障碍物和行人的可靠规避。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。