Skip to main content
QUICK REVIEW

[论文解读] End to End Learning for Self-Driving Cars

Mariusz Bojarski, Davide Testa|arXiv (Cornell University)|Apr 25, 2016
Advanced Neural Network Applications参考文献 5被引用 3,101
一句话总结

一个 CNN 将来自前置摄像头的原始像素直接映射到方向控制命令,使用极少的人类数据进行训练,在仿真和真实车辆上实现多样道路的自动驾驶。

ABSTRACT

We trained a convolutional neural network (CNN) to map raw pixels from a single front-facing camera directly to steering commands. This end-to-end approach proved surprisingly powerful. With minimum training data from humans the system learns to drive in traffic on local roads with or without lane markings and on highways. It also operates in areas with unclear visual guidance such as in parking lots and on unpaved roads. The system automatically learns internal representations of the necessary processing steps such as detecting useful road features with only the human steering angle as the training signal. We never explicitly trained it to detect, for example, the outline of roads. Compared to explicit decomposition of the problem, such as lane marking detection, path planning, and control, our end-to-end system optimizes all processing steps simultaneously. We argue that this will eventually lead to better performance and smaller systems. Better performance will result because the internal components self-optimize to maximize overall system performance, instead of optimizing human-selected intermediate criteria, e.g., lane detection. Such criteria understandably are selected for ease of human interpretation which doesn't automatically guarantee maximum system performance. Smaller networks are possible because the system learns to solve the problem with the minimal number of processing steps. We used an NVIDIA DevBox and Torch 7 for training and an NVIDIA DRIVE(TM) PX self-driving car computer also running Torch 7 for determining where to drive. The system operates at 30 frames per second (FPS).

研究动机与目标

  • 证明端到端学习在不使用手工设计特征的情况下,能够仅用原始图像输入来控制车辆。
  • 显示CNN可以从有限的带标签数据中学习内部道路表示和驾驶策略。
  • 评估在多样化的驾驶场景下的性能,包括高速公路、地方道路和未铺设路面。
  • 评估数据增强和仿真在道路测试前提高鲁棒性的可行性。

提出的方法

  • 训练一个9层的CNN,将来自单个前置摄像头的YUV图像输入映射到逆转向半径输出。
  • 以网络输出与人工驾驶员转向之间的均方误差(在居中/偏移或旋转图像的情况下使用扩增转向)作为损失。
  • 通过人工平移和旋转来扩增训练数据,以教授从偏离中恢复。
  • 在不同的道路、照明和天气条件下进行数据收集;包括有或没有车道线的高速公路和地方道路。
  • 通过两阶段评估进行验证:使用预先录制视频的仿真,以及带有 DRIVE PX 车辆计算机的实际道路测试。

实验结果

研究问题

  • RQ1端到端学习是否能够在不进行显式道路/车道线检测的情况下,将来自前置摄像头的原始输入映射到转向?
  • RQ2学习得到的策略在多样的道路类型、天气和照明条件下的泛化能力如何?
  • RQ3在投入部署之前,数据增强和仿真对鲁棒性的影响是多少?
  • RQ4在仿真和真实道路上可实现的自主性水平(以自主性衡量)是多少?
  • RQ5端到端方法与模块化、手工设计的感知与控制管线相比如何?

主要发现

  • CNN 仅使用转向角作为训练信号来学习有用的道路特征和驾驶行为,而不需要明确的道路轮廓。
  • 该系统在 NVIDIA 硬件上以 30 FPS 运行,并在多种条件下用约 72 小时的驾驶数据进行了训练。
  • 道路测试在新泽西州门诺县显示大约 98% 的典型驾驶实现了自主转向,在一条多车道高速公路上行驶了 10 英里且未有干预。
  • 该车可在高速公路、地方道路和住宅区道路中,在晴天、阴天、雨天和雪天条件下行驶,包括未铺设的道路和停车场。
  • 仿真实验通过计数人工干预并应用六秒重新接管模型来估计自主性,提供道路测试前的度量。
  • 对内部CNN状态的可视化显示,早期特征图在铺设路面上对道路轮廓有响应,而在非道路场景中则表现为噪声,表明学习到的表示不需要显式监督。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。