[论文解读] ChauffeurNet: Learning to Drive by Imitating the Best and Synthesizing the Worst
本文提出 ChauffeurNet,一种用于自主驾驶的中层模仿学习方法,通过引入扰动轨迹和关注环境的损失来增强专家数据,以实现闭环鲁棒性,并包含真实世界部署。
Our goal is to train a policy for autonomous driving via imitation learning that is robust enough to drive a real vehicle. We find that standard behavior cloning is insufficient for handling complex driving scenarios, even when we leverage a perception system for preprocessing the input and a controller for executing the output on the car: 30 million examples are still not enough. We propose exposing the learner to synthesized data in the form of perturbations to the expert's driving, which creates interesting situations such as collisions and/or going off the road. Rather than purely imitating all data, we augment the imitation loss with additional losses that penalize undesirable events and encourage progress -- the perturbations then provide an important signal for these losses and lead to robustness of the learned model. We show that the ChauffeurNet model can handle complex situations in simulation, and present ablation experiments that emphasize the importance of each of our proposed changes and show that the model is responding to the appropriate causal factors. Finally, we demonstrate the model driving a car in the real world.
研究动机与目标
- 证明仅使用中层输入/输出的纯行为克隆在复杂场景下不足以实现鲁棒的自主驾驶。
- 通过合成轨迹扰动引入数据增强,使模型暴露于非专家行为(如碰撞、偏离道路)以提高安全性。
- 提出一个多损失训练框架,将模仿损失与环境损失结合起来,引导闭环驾驶中的鲁棒行为。
- 证明一个中层表示流程可以训练一个在仿真中运行并可迁移到真实车辆测试的驾驶策略。
提出的方法
- 使用中层、自上而下的表示(道路图、交通灯、速度限制、路线、动态对象)作为 ChauffeurNet 的输入。
- 使用具备记忆的 AgentRNN,迭代预测未来路点以及每像素的代理人边界框热力图。
- 共同训练 Road Mask Network 和 PerceptionRNN,以使用共享特征预测可行驶区域和其他主体的未来位置。
- 使用模仿损失(位置、朝向、框、亚像素 refinements、速度)与环境损失(碰撞、在道、几何、对象预测、道路掩模)的组合进行训练。
- 引入Past Motion Dropout 以防止在过去历史上的作弊,以及 Trajectory Perturbation 以产生具有挑战性的扰动训练样本。
- 应用模仿损失置零(随机将模仿损失设为零)以提升相较于简单损失加权的鲁棒性。
实验结果
研究问题
- RQ1在闭环设置中,使用中层表示的纯模仿学习是否能够达到鲁棒的驾驶性能?
- RQ2通过扰动轨迹和环境导向的损失来增强模仿是否能在复杂驾驶场景中改善安全性与鲁棒性?
- RQ3过去运动的丢弃、轨迹扰动和模仿丢弃如何影响学习与泛化?
- RQ4中层感知/控制分解是否可以从仿真/训练数据迁移到真实世界车辆运行?
主要发现
- 仅用 3000 万条记录示例的纯模仿学习在闭环驾驶中的鲁棒性不足。
- 扰动专家轨迹并包含环境损失显著提升对挑战性场景的处理能力(例如在停放车辆周围轻碰、从偏离车道恢复)。
- 模仿丢弃优于简单损失重加权,在消融测试中带来更好的安全性和鲁棒性。
- 经过扰动和环境损失训练的模型能够在现实世界中驾驶,并处理转弯、停靠和交通信号。
- 该系统采用中层表示和基于轨迹的控制器,能够在仿真中进行闭环测试后再部署到真实环境。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。