QUICK REVIEW

[论文解读] DeepRacer: Educational Autonomous Racing Platform for Experimentation with Sim2Real Reinforcement Learning

Bharathan Balaji, Sunil Mallya|arXiv (Cornell University)|Nov 5, 2019

Reinforcement Learning in Robotics参考文献 77被引用 32

一句话总结

DeepRacer 是一个可扩展的教育性自主赛车平台，支持在模拟环境中进行端到端强化学习（RL）训练，并通过 1/18 分之一比例的赛车实现稳健的 sim2real 迁移。它利用 PPO、领域随机化和鲁棒评估，在不到 5 分钟的训练时间内实现了 sim2real 导航，成功实现在真实世界中的部署，且无需真实世界微调或专家数据。

ABSTRACT

DeepRacer is a platform for end-to-end experimentation with RL and can be used to systematically investigate the key challenges in developing intelligent control systems. Using the platform, we demonstrate how a 1/18th scale car can learn to drive autonomously using RL with a monocular camera. It is trained in simulation with no additional tuning in physical world and demonstrates: 1) formulation and solution of a robust reinforcement learning algorithm, 2) narrowing the reality gap through joint perception and dynamics, 3) distributed on-demand compute architecture for training optimal policies, and 4) a robust evaluation method to identify when to stop training. It is the first successful large-scale deployment of deep reinforcement learning on a robotic control agent that uses only raw camera images as observations and a model-free learning method to perform robust path planning. We open source our code and video demo on GitHub: https://git.io/fjxoJ.

研究动机与目标

通过提供一个统一、易访问的平台，降低研究人员和学生在机器人强化学习领域的入门门槛，支持 sim2real RL 实验。
通过在可扩展的云架构中集成领域随机化、鲁棒评估和分布式训练，解决强化学习中的 sim2real 差距问题。
证明仅使用原始摄像头观测的无模型、端到端 RL 可成功从模拟迁移到真实世界机器人控制，且无需专家演示或真实世界数据。
通过按需使用云计算资源，实现实时、可扩展的训练与评估，覆盖多种赛道、光照条件和传感器变化。

提出的方法

该平台采用解耦的 rollout 架构，将模拟 rollout 与策略训练分离，支持模拟集群与训练工作节点的独立扩展。
使用近端策略优化（PPO）算法，基于原始灰度图像作为观测输入，对离散的油门/转向动作进行策略训练。
通过在动作（例如 10% 噪声）和观测（例如随机颜色、亮度、阴影、椒盐噪声）上应用领域随机化，提升策略的泛化能力。
通过在随机化条件下（如动作噪声、反向行驶、多种起始位置）测试策略，执行鲁棒评估，以识别能泛化到真实世界的表现。
系统支持并行在多个赛道上进行训练，利用分布式 rollout，并与云环境计算资源集成，实现按需扩展。
采用校准的 Gazebo 模拟模型，对 1/18 分之一比例赛车进行建模，包含逼真的动力学、传感器模型以及多种赛道布局，以支持多样化的训练与评估场景。

实验结果

研究问题

RQ1仅在模拟环境中基于原始摄像头图像进行无模型、端到端 RL 训练的策略，是否能在不进行真实世界微调的情况下成功导航真实赛道？
RQ2在仅使用视觉观测的情况下，领域随机化在缩小机器人控制的 sim2real 差距方面有多有效？
RQ3何种评估协议能够可靠预测真实世界性能，并防止模型过拟合到模拟环境的特定条件？
RQ4在保持策略在多样化环境中的泛化能力的同时，分布式、按需的云计算在多大程度上能加速训练？
RQ5熵奖励、正则化和最大油门速度等超参数在多大程度上影响 sim2real 迁移性能？

主要发现

使用 PPO 训练的策略在不到 5 分钟的训练时间内即实现了 sim2real 迁移，并在 1/18 分之一比例的赛车上成功完成真实世界导航。
在多种随机化评估条件（如动作噪声、反向行驶）下表现一致的策略，在真实世界中泛化能力更强；而简单的评估方法无法预测真实世界性能。
对观测图像进行随机颜色增强是提升 sim2real 迁移效果最有效的领域随机化技术。
将熵奖励降低至 0.001，并以 0.3 的概率应用 Dropout，显著提升了策略的鲁棒性和真实世界表现。
采用最大油门速度 2.33 m/s，结合颜色随机化、L2 正则化和 Dropout 进行训练，可获得最佳整体性能，在真实赛道上实现 11 秒/圈（1.6 m/s）的成绩。
在 Track B 上训练的策略在经过长时间训练后最终可泛化到 Track A，但初始检查点失败，凸显了鲁棒评估和训练时长的重要性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。