[论文解读] Virtual-to-real Deep Reinforcement Learning: Continuous Control of Mobile Robots for Mapless Navigation
本文提出一个无需地图的运动规划器,通过异步深度强化学习端到端训练,仅使用10维稀疏激光测距和目标相对位置,并展示从虚拟机器人到真实机器人无需微调的迁移。
We present a learning-based mapless motion planner by taking the sparse 10-dimensional range findings and the target position with respect to the mobile robot coordinate frame as input and the continuous steering commands as output. Traditional motion planners for mobile ground robots with a laser range sensor mostly depend on the obstacle map of the navigation environment where both the highly precise laser sensor and the obstacle map building work of the environment are indispensable. We show that, through an asynchronous deep reinforcement learning method, a mapless motion planner can be trained end-to-end without any manually designed features and prior demonstrations. The trained planner can be directly applied in unseen virtual and real environments. The experiments show that the proposed mapless motion planner can navigate the nonholonomic mobile robot to the desired targets without colliding with any obstacles.
研究动机与目标
- 开发一个针对非完整约束移动机器人,使用稀疏距离数据和相对目标位置作为输入的无地图运动规划器。
- 利用异步深度强化学习端到端训练该规划器,以输出连续的转向指令。
- 证明所学策略能够在不进行微调的情况下,从虚拟仿真转移到真实机器人。
- 在虚拟和真实条件下评估鲁棒性并与传统基于地图的规划器进行比较。
提出的方法
- 将其表述为一个连续控制的DRL问题,状态 x_t 由10维稀疏激光观测、先前速度和相对目标位置组成。
- 使用异步 DDPG (ADDPG) 在并行采样线程中训练 actor 和 critic 网络。
- 网络输出为连续线速度和角速度,通过 tanh 和 sigmoid 激活函数将角速度约束在 (-1,1),线速度约束在 (0,1)。
- 在虚拟环境(V-REP)中进行训练,包含2个室内布局,目标随机化,并优化奖励函数,将到达、碰撞和向目标前进结合起来。
- 奖励:r = r_arrive 当接近目标时,r_collision 当发生碰撞时,否则 c_r(d_{t-1}-d_t),其中 d_t 是到目标的距离。
- 观测输入合并成一个14维向量(10维激光观测,2维先前速度,2维相对目标)。
- 采用3层全连接的 critic 和 actor 网络,策略网络的隐层为512节点。
- 使用 Adam 优化器,并将输出限制在现实的机器人极限内(例如,线速度最大 0.5 m/s,角速度最大 1 rad/s)。
实验结果
研究问题
- RQ1一个无地图规划器能否仅使用稀疏范围数据和目标位置来导航一个非完整约束的差分驱动机器人?
- RQ2在这种设置下,异步 DRL 方法是否能实现对连续控制的高效训练?
- RQ3所学策略能否无需微调就实现从虚拟仿真到真实机器人的迁移?
- RQ4在未知环境中,无地图规划器在鲁棒性和速度方面相对于传统基于地图的规划器表现如何?
主要发现
- 在模拟中使用10维稀疏激光读数训练的无地图规划器在未见的虚拟环境中实现无碰撞导航到目标。
- ADDPG 方法通过提高样本吞吐量和改善 Q 值收敛,相比标准 DDPG 加速训练。
- 在真实世界的测试中,Env-2 训练的模型完成了 Move Base 的10维版本失败或需要人工干预的导航任务,证明了无需微调的迁移能力。
- 无地图规划器每次决策约1毫秒,比基于地图的基线显著更快。
- 所学习的策略在复杂室内环境中展现出鲁棒性,并且可以扩展到使用稀疏观测的低成本传感器。
- 在需要时自然出现(旋转回收)的一种恢复行为,在实验中未观察到碰撞。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。