[论文解读] Towards Optimally Decentralized Multi-Robot Collision Avoidance via Deep Reinforcement Learning
本文提出了一种多场景、多阶段的深度强化学习框架,用于训练完全去中心化的、传感器级别的多机器人系统碰撞避让策略。通过直接将原始的激光雷达类传感器输入映射到转向指令,该方法在复杂、大规模场景中实现了高成功率和高效的导航,包括100台机器人系统和异构团队,展示了在训练分布之外的强大泛化能力。
Developing a safe and efficient collision avoidance policy for multiple robots is challenging in the decentralized scenarios where each robot generate its paths without observing other robots' states and intents. While other distributed multi-robot collision avoidance systems exist, they often require extracting agent-level features to plan a local collision-free action, which can be computationally prohibitive and not robust. More importantly, in practice the performance of these methods are much lower than their centralized counterparts. We present a decentralized sensor-level collision avoidance policy for multi-robot systems, which directly maps raw sensor measurements to an agent's steering commands in terms of movement velocity. As a first step toward reducing the performance gap between decentralized and centralized methods, we present a multi-scenario multi-stage training framework to find an optimal policy which is trained over a large number of robots on rich, complex environments simultaneously using a policy gradient based reinforcement learning algorithm. We validate the learned sensor-level collision avoidance policy in a variety of simulated scenarios with thorough performance evaluations and show that the final learned policy is able to find time efficient, collision-free paths for a large-scale robot system. We also demonstrate that the learned policy can be well generalized to new scenarios that do not appear in the entire training period, including navigating a heterogeneous group of robots and a large-scale scenario with 100 robots. Videos are available at https://sites.google.com/view/drlmaca
研究动机与目标
- 通过开发一种不依赖全局状态或通信的传感器级别策略,弥合集中式与去中心式多机器人碰撞避让之间的性能差距。
- 克服传统代理级别方法的局限性,如对超参数调优的敏感性、对完美感知的依赖以及可扩展性差的问题。
- 在无需微调的情况下,实现对未见过的场景(包括异构机器人和大规模系统,如100台机器人)的鲁棒泛化。
- 设计一种结合多样化环境和多阶段学习的训练框架,以提升策略的鲁棒性和效率。
提出的方法
- 使用策略梯度算法训练深度强化学习策略,直接将原始传感器测量值(例如激光雷达扫描)映射到速度指令,绕过显式的状态估计。
- 实施两阶段训练框架:第一阶段在单一随机场景中训练,以学习基本的碰撞避让能力;第二阶段在多个复杂、多样的场景中进行微调,以提升鲁棒性。
- 采用多场景多阶段课程学习以增强泛化能力,其中第二阶段策略在广泛分布的环境中进行训练,包括走廊、群体穿越和障碍物密集环境。
- 在团队所有机器人之间共享同一策略,实现在无需显式协调或通信情况下的稳定且协同的行为。
- 直接使用原始传感器输入,无需分割、跟踪或感知流水线,从而降低计算开销和感知不确定性。
- 在训练过程中使用密集奖励、稀疏奖励和形状奖励函数,同时优化成功率和导航效率(时间与距离)。
实验结果
研究问题
- RQ1通过深度强化学习训练的完全去中心化、传感器级别的碰撞避让策略,是否能在复杂、大规模多机器人场景中实现与集中式方法相当的性能?
- RQ2多场景、多阶段训练在多大程度上提升了去中心化碰撞避让策略对未见过环境和机器人配置的泛化能力?
- RQ3在同质机器人上训练的策略,能在多大程度上泛化到异构机器人团队或以固定速度移动的非合作代理?
- RQ4所提出的方法是否能有效导航密集且受限的环境(如带障碍物的狭窄走廊),而传统代理级别方法因依赖全局规划器而失效?
主要发现
- 在100台机器人向对角位置移动的随机场景中,第二阶段策略实现了98%的成功率,证明了其可扩展性和鲁棒性。
- 该策略在无需任何微调的情况下,有效泛化到异构机器人团队(例如,混合使用圆盘形和矩形形机器人),实现了无碰撞导航。
- 在带障碍物的走廊场景中,仅第二阶段策略成功完成了任务,而NH-ORCA因依赖全局路径规划和障碍物地图而失败。
- 在群体穿越和交换场景中,与NH-ORCA相比,第二阶段策略将平均额外时间减少了40%,额外距离减少了30%,表明其具备更优的合作与效率。
- 在非合作环境下,该策略仍保持高性能,成功避开了未在训练分布中的高速直线运动矩形形机器人。
- 多场景训练框架显著减少了过拟合,提升了泛化能力,表现为第二阶段策略在多样化和复杂环境中优于第一阶段策略。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。