[论文解读] Realtime Collision Avoidance for Mobile Robots in Dense Crowds using Implicit Multi-sensor Fusion and Deep Reinforcement Learning
CrowdSteer 提出了一种端到端的深度强化学习方法,通过隐式融合二维激光雷达和深度相机数据,在密集人群环境中实现实时避障。该方法在高保真度 3D 模拟环境中使用近端策略优化(PPO)进行训练,能够在走廊和十字路口等复杂、存在遮挡的环境中实现平滑、无碰撞的轨迹,其在真实机器人(包括 Turtlebot 和 Jackal)上的表现优于以往方法,在成功率、轨迹平滑度和平均到达时间方面均更优。
We present a novel learning-based collision avoidance algorithm, CrowdSteer, for mobile robots operating in dense and crowded environments. Our approach is end-to-end and uses multiple perception sensors such as a 2-D lidar along with a depth camera to sense surrounding dynamic agents and compute collision-free velocities. Our training approach is based on the sim-to-real paradigm and uses high fidelity 3-D simulations of pedestrians and the environment to train a policy using Proximal Policy Optimization (PPO). We show that our learned navigation model is directly transferable to previously unseen virtual and dense real-world environments. We have integrated our algorithm with differential drive robots and evaluated its performance in narrow scenarios such as dense crowds, narrow corridors, T-junctions, L-junctions, etc. In practice, our approach can perform real-time collision avoidance and generate smooth trajectories in such complex scenarios. We also compare the performance with prior methods based on metrics such as trajectory length, mean time to goal, success rate, and smoothness and observe considerable improvement.
研究动机与目标
- 解决在传统方法因遮挡和行人运动不可预测而失效的密集动态人群环境中实时可靠避障的挑战。
- 改善轨迹平滑度,减少现有基于学习的方法和经典导航方法中常见的振荡行为。
- 实现在此前未见过的室内环境中高密度人群下移动机器人导航的稳健仿真到真实环境迁移。
- 开发一种隐式传感器融合策略,无需显式运动预测即可捕捉与动态障碍物的复杂交互。
- 在包括狭窄走廊、T 字路口和 L 字路口在内的多样化真实场景中评估性能,这些场景具有高遮挡性和不可预测的行人行为。
提出的方法
- 该方法将人群中的机器人导航建模为部分可观测马尔可夫决策过程(POMDP),并通过使用近端策略优化(PPO)的深度强化学习求解。
- 通过处理来自二维激光雷达和 RGB-D 相机的原始输入实现隐式多传感器融合,无需显式特征工程,使策略能够学习复杂的障碍物交互。
- 采用自定义奖励函数,包含对振荡运动和靠近障碍物的惩罚,以促进平滑且安全的轨迹。
- 使用具有真实行人动力学的高保真度 3D 室内环境模拟来训练策略,从而减小仿真到真实环境的域差距。
- 训练好的策略可直接部署在真实机器人(Turtlebot 2 和 Clearpath Jackal)上,具备差速驱动运动学,实现实时推理。
- 系统在模拟和真实世界场景中均进行了评估,行人密度范围从低到高(最高达 3 人/m²),包括遮挡和狭窄环境。
实验结果
研究问题
- RQ1与单传感器方法相比,2D 激光雷达和深度相机数据的隐式多传感器融合是否能提升在密集遮挡人群中的避障性能?
- RQ2基于 PPO 的深度强化学习策略在高保真度仿真环境中训练后,是否能在无需微调的情况下有效泛化到真实世界密集人群导航?
- RQ3在奖励函数中引入振荡惩罚在多大程度上能改善动态导航任务中的轨迹平滑度?
- RQ4CrowdSteer 在复杂真实场景(如 T 字路口、L 字路口和狭窄走廊)中的表现如何,尤其是在高密度人群和遮挡条件下?
- RQ5在极端条件下(如极高密度 >4 人/m²、反光表面或狭窄路径)下,该方法的失效模式是什么?
主要发现
- CrowdSteer 在所有测试的真实世界场景中均实现了 100% 的成功率,包括最高达 3 人/m² 的密集人群、T 字路口和 L 字路口,且无任何碰撞。
- 在空旷和静态障碍物场景中,引入振荡惩罚后,平均轨迹振荡次数从 9.8 次(无惩罚)降低至 2.0 次,显著提升了轨迹平滑度。
- 与 Fan 等人的方法相比,CrowdSteer 生成了更平滑的轨迹,有效避免了振荡行为,尤其在遮挡走廊和障碍物突然出现的情况下表现更优。
- 消融研究显示,仅使用深度相机时成功率较低(非 100%),且对遮挡更敏感,而融合传感器输入显著提升了鲁棒性。
- 策略在未见过的真实世界环境中泛化良好,包括训练中未出现的高行人随机性和动态运动场景。
- 失效案例包括在非常宽敞区域出现的振荡行为、锐角转弯的挑战,以及在反光或透明表面环境及高红外干扰条件下的局限性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。