[论文解读] DeepDriving: Learning Affordance for Direct Perception in Autonomous Driving
本文提出 DeepDriving,一种直接感知框架,利用深度卷积神经网络直接从原始图像中估计关键驾驶属性(如与附近车辆的距离和车道位置),跳过完整场景解析或端到端动作回归。该方法在 KITTI 数据集上的距离估计任务中达到最先进性能,y 方向的平均绝对误差为 5.832m,展现出对真实道路场景的强大泛化能力。
Today, there are two major paradigms for vision-based autonomous driving systems: mediated perception approaches that parse an entire scene to make a driving decision, and behavior reflex approaches that directly map an input image to a driving action by a regressor. In this paper, we propose a third paradigm: a direct perception approach to estimate the affordance for driving. We propose to map an input image to a small number of key perception indicators that directly relate to the affordance of a road/traffic state for driving. Our representation provides a set of compact yet complete descriptions of the scene to enable a simple controller to drive autonomously. Falling in between the two extremes of mediated perception and behavior reflex, we argue that our direct perception representation provides the right level of abstraction. To demonstrate this, we train a deep Convolutional Neural Network using recording from 12 hours of human driving in a video game and show that our model can work well to drive a car in a very diverse set of virtual environments. We also train a model for car distance estimation on the KITTI dataset. Results show that our direct perception approach can generalize well to real driving images. Source code and data are available on our project website.
研究动机与目标
- 解决自动驾驶中媒介感知(过度场景解析)和行为反射(直接图像到动作映射)的局限性。
- 提出一种中间范式——直接感知,即在无需完整场景理解的前提下估计关键驾驶属性。
- 开发一种紧凑且任务特定的表征方式,以实现简单控制,同时保持鲁棒性和泛化能力。
- 在人类驾驶视频数据上训练深度卷积神经网络(CNN),学习从图像到驾驶相关指标的直接映射。
- 在合成数据集(TORCS)和真实世界数据集(KITTI)上评估性能,验证其在真实图像上的泛化能力。
提出的方法
- 在赛车游戏(TORCS)中采集的 12 小时人类驾驶视频上训练深度卷积神经网络(CNN),回归关键驾驶属性:x 方向和 y 方向与最近车辆的距离,以及欧氏距离。
- 使用全连接层提取 4,096 维的中间表征,编码与驾驶决策相关的场景特征。
- 可视化神经元激活模式和响应图,以解释网络学习到的特征(如车道线、车辆位置和本车朝向)。
- 与基于 DPM 的媒介感知基线方法进行对比,采用投影法进行距离估计,评估是否施加误报惩罚。
- 将相同的网络架构应用于 KITTI 数据集,以实现真实世界中的距离估计,使用校准传感器的真值数据。
- 使用平均绝对误差(MAE)评估性能,部分指标中对误报施加惩罚以确保公平性。
实验结果
研究问题
- RQ1深度 CNN 是否能够直接从原始图像中估计关键驾驶属性(如与最近车辆的距离),而无需完整场景解析?
- RQ2所提出的直接感知方法是否能泛化到真实世界驾驶数据(如 KITTI 数据集)?
- RQ3直接感知方法的性能与基于目标检测和几何投影的媒介感知基线方法相比如何?
- RQ4CNN 中学习到的特征在多大程度上对应于有意义的驾驶相关结构(如车道线和附近车辆)?
- RQ5该模型是否能处理传统基于投影的方法失效的复杂场景(如部分可见车辆或不平整地形)?
主要发现
- 所提出的直接感知模型在 KITTI 数据集上预测最近车辆 y 坐标(前向距离)的平均绝对误差(MAE)为 5.832 米。
- 该模型在 x 坐标(横向距离)上的 MAE 为 1.565 米,欧氏距离(d)的 MAE 为 6.299 米,显示出在真实世界数据上的优异性能。
- 当未对误报进行惩罚时,模型误差显著降低(例如,d 的误差降至 4.669 米),表明其在真正例上的估计精度高于基于 DPM 的基线方法。
- 神经元激活的可视化显示其与车道线、车辆位置和本车朝向存在强相关性,证实网络学习到了任务特定的特征。
- 第 4 卷积层的响应图在附近车辆和车道线区域显示出强烈激活,表明网络能够关注与属性估计相关的区域。
- 尽管模型在合成视频上进行训练,但其在真实世界图像上泛化良好,且优于基于 DPM 的投影方法,尤其在排除误报后表现更优。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。