[论文解读] DeepRacer: Educational Autonomous Racing Platform for Experimentation with Sim2Real Reinforcement Learning
DeepRacer 是一个可扩展的教育性自主赛车平台,支持在模拟环境中进行端到端强化学习(RL)训练,并通过 1/18 分之一比例的赛车实现稳健的 sim2real 迁移。它利用 PPO、领域随机化和鲁棒评估,在不到 5 分钟的训练时间内实现了 sim2real 导航,成功实现在真实世界中的部署,且无需真实世界微调或专家数据。
DeepRacer is a platform for end-to-end experimentation with RL and can be used to systematically investigate the key challenges in developing intelligent control systems. Using the platform, we demonstrate how a 1/18th scale car can learn to drive autonomously using RL with a monocular camera. It is trained in simulation with no additional tuning in physical world and demonstrates: 1) formulation and solution of a robust reinforcement learning algorithm, 2) narrowing the reality gap through joint perception and dynamics, 3) distributed on-demand compute architecture for training optimal policies, and 4) a robust evaluation method to identify when to stop training. It is the first successful large-scale deployment of deep reinforcement learning on a robotic control agent that uses only raw camera images as observations and a model-free learning method to perform robust path planning. We open source our code and video demo on GitHub: https://git.io/fjxoJ.
研究动机与目标
- 通过提供一个统一、易访问的平台,降低研究人员和学生在机器人强化学习领域的入门门槛,支持 sim2real RL 实验。
- 通过在可扩展的云架构中集成领域随机化、鲁棒评估和分布式训练,解决强化学习中的 sim2real 差距问题。
- 证明仅使用原始摄像头观测的无模型、端到端 RL 可成功从模拟迁移到真实世界机器人控制,且无需专家演示或真实世界数据。
- 通过按需使用云计算资源,实现实时、可扩展的训练与评估,覆盖多种赛道、光照条件和传感器变化。
提出的方法
- 该平台采用解耦的 rollout 架构,将模拟 rollout 与策略训练分离,支持模拟集群与训练工作节点的独立扩展。
- 使用近端策略优化(PPO)算法,基于原始灰度图像作为观测输入,对离散的油门/转向动作进行策略训练。
- 通过在动作(例如 10% 噪声)和观测(例如随机颜色、亮度、阴影、椒盐噪声)上应用领域随机化,提升策略的泛化能力。
- 通过在随机化条件下(如动作噪声、反向行驶、多种起始位置)测试策略,执行鲁棒评估,以识别能泛化到真实世界的表现。
- 系统支持并行在多个赛道上进行训练,利用分布式 rollout,并与云环境计算资源集成,实现按需扩展。
- 采用校准的 Gazebo 模拟模型,对 1/18 分之一比例赛车进行建模,包含逼真的动力学、传感器模型以及多种赛道布局,以支持多样化的训练与评估场景。
实验结果
研究问题
- RQ1仅在模拟环境中基于原始摄像头图像进行无模型、端到端 RL 训练的策略,是否能在不进行真实世界微调的情况下成功导航真实赛道?
- RQ2在仅使用视觉观测的情况下,领域随机化在缩小机器人控制的 sim2real 差距方面有多有效?
- RQ3何种评估协议能够可靠预测真实世界性能,并防止模型过拟合到模拟环境的特定条件?
- RQ4在保持策略在多样化环境中的泛化能力的同时,分布式、按需的云计算在多大程度上能加速训练?
- RQ5熵奖励、正则化和最大油门速度等超参数在多大程度上影响 sim2real 迁移性能?
主要发现
- 使用 PPO 训练的策略在不到 5 分钟的训练时间内即实现了 sim2real 迁移,并在 1/18 分之一比例的赛车上成功完成真实世界导航。
- 在多种随机化评估条件(如动作噪声、反向行驶)下表现一致的策略,在真实世界中泛化能力更强;而简单的评估方法无法预测真实世界性能。
- 对观测图像进行随机颜色增强是提升 sim2real 迁移效果最有效的领域随机化技术。
- 将熵奖励降低至 0.001,并以 0.3 的概率应用 Dropout,显著提升了策略的鲁棒性和真实世界表现。
- 采用最大油门速度 2.33 m/s,结合颜色随机化、L2 正则化和 Dropout 进行训练,可获得最佳整体性能,在真实赛道上实现 11 秒/圈(1.6 m/s)的成绩。
- 在 Track B 上训练的策略在经过长时间训练后最终可泛化到 Track A,但初始检查点失败,凸显了鲁棒评估和训练时长的重要性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。