QUICK REVIEW

[论文解读] Driving Policy Transfer via Modularity and Abstraction

Matthias Müller, Alexey Dosovitskiy|arXiv (Cornell University)|Apr 25, 2018

Autonomous Vehicle Technology and Safety被引用 122

一句话总结

这篇论文展示了一个模块化架构（感知、策略、低级控制）如何直接将仿真中学到的驾驶策略转移到真实的1/5比例卡车而无需微调，通过在语义地图和航路点上操作，而非原始图像或马达指令。

ABSTRACT

End-to-end approaches to autonomous driving have high sample complexity and are difficult to scale to realistic urban driving. Simulation can help end-to-end driving systems by providing a cheap, safe, and diverse training environment. Yet training driving policies in simulation brings up the problem of transferring such policies to the real world. We present an approach to transferring driving policies from simulation to reality via modularity and abstraction. Our approach is inspired by classic driving systems and aims to combine the benefits of modular architectures and end-to-end deep learning approaches. The key idea is to encapsulate the driving policy such that it is not directly exposed to raw perceptual input or low-level vehicle dynamics. We evaluate the presented approach in simulated urban environments and in the real world. In particular, we transfer a driving policy trained in simulation to a 1/5-scale robotic truck that is deployed in a variety of conditions, with no finetuning, on two continents. The supplementary video can be viewed at https://youtu.be/BrMDJqI6H5U

研究动机与目标

通过利用模块化和抽象来激发并解决自动驾驶的现实世界差距。
提出一个三阶段架构，将感知、策略和控制隔离，以便于仿真到现实的迁移。
在现实世界分割数据上训练感知，并完全在仿真中使用真实感知输出训练驾驶策略。
展示从仿真到真实车辆在多样环境和条件下的迁移。
研究语义表示和航路点输出如何促进跨域稳健迁移。

提出的方法

三模块架构：感知（编码器-解码器，输出逐像素的道路/非道路分割）、驾驶策略（将分割映射到局部航路点计划）、以及基于 PID 的低级控制以跟随航路点。
感知在 Cityscapes 上进行二值道路分割训练，使用 ERFNet 和交叉熵损失。
在 CARLA 中采用带条件模仿学习（CIL）的驾驶策略训练，使其输出两个航路点，按距离和相对角度编码，受高层指令（左/直/右）条件化。
策略在包含现实噪声的分割输出上训练，以模拟现实感知的不完善性（没有 ground-truth 分割）。
训练使用仿真数据（28 小时），配有专家规划器和 PID 跟随者；应用数据增强和天气变动。
控制阶段对油门和转向使用独立的 PID 控制器，基于航路点角度（φ1）和目标速度。

实验结果

研究问题

RQ1一个模块化的感知-策略-控制架构是否能够在不进行微调的情况下实现从仿真到现实的直接迁移？
RQ2将感知抽象为语义分割并将驾驶输出设为航路点，是否能在不同环境和天气条件下提升泛化？
RQ3使用带噪声的分割输出进行训练对现实世界的迁移性能有何影响？
RQ4在领域转变下，基于航路点的模块化策略与端到端的基于图像的策略相比，性能如何？

主要发现

Route	Length	Time	Missed turns	Severe	Mild
1	1.0 km	4:12	1/7	0	2
2	0.7 km	3:05	1/8	0	3
3	1.1 km	5:08	2/8	1	5

模块化方法在仿真中对看不见的城镇和天气条件下，优于单体端到端基线。
在仿真中，基于分割的航路点预测相较于图像到控制或图像到航点基线，在新城镇和天气条件下更具泛化性。
在真实环境中，该模块化策略在不进行数据增强时对三条路线的成功率为82%，进行增强后达到100%。
端到端基于图像的策略在用彩色图像训练时，即使有数据增强或领域随机化也难以很好地泛化到现实世界。
真实机器人实验表明从仿真到现实的迁移无需微调，感知训练仅使用 Cityscapes 数据。
物理车辆完成了三条长路线，只有少数违规，其中包括一起需要干预的严重违规。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。