Skip to main content
QUICK REVIEW

[论文解读] End-to-end Learning of Driving Models from Large-scale Video Datasets

Huazhe Xu, Yang Gao|arXiv (Cornell University)|Dec 4, 2016
Autonomous Vehicle Technology and Safety参考文献 27被引用 38
一句话总结

本文提出一种端到端的FCN-LSTM架构,从大规模众包获取的行车记录仪视频中学习通用的驾驶策略,能够从单目图像和先前状态预测多模态未来自身运动。通过将语义分割作为优势辅助任务,该模型在未见序列上的驾驶员行为预测性能显著优于基线模型,在困惑度和准确率方面均表现更优。

ABSTRACT

Robust perception-action models should be learned from training data with diverse visual appearances and realistic behaviors, yet current approaches to deep visuomotor policy learning have been generally limited to in-situ models learned from a single vehicle or a simulation environment. We advocate learning a generic vehicle motion model from large scale crowd-sourced video data, and develop an end-to-end trainable architecture for learning to predict a distribution over future vehicle egomotion from instantaneous monocular camera observations and previous vehicle state. Our model incorporates a novel FCN-LSTM architecture, which can be learned from large-scale crowd-sourced vehicle action data, and leverages available scene segmentation side tasks to improve performance under a privileged learning paradigm.

研究动机与目标

  • 开发一种通用的、可端到端训练的视觉-运动策略,能够在不依赖特定车辆标定的情况下泛化于多种驾驶场景。
  • 实现从大规模、未标定的众包行车记录仪视频数据中进行学习,而非依赖仿真或现场录制数据。
  • 通过引入语义分割作为优势学习信号,提升端到端自身运动预测的性能。
  • 整理并发布一个大规模、多样化的驾驶数据集,适用于训练通用驾驶模型。
  • 评估模型在多样化真实场景下对未见序列的未来驾驶行为预测能力。

提出的方法

  • 该模型采用一种新型的FCN-LSTM架构,处理单目视频帧和先前车辆状态,以预测未来自身运动的概率分布。
  • 通过多任务学习框架,联合优化驾驶动作预测(运动损失)和语义分割(辅助任务损失)。
  • 该架构将预训练全卷积网络(FCN)的特征与LSTM结合,以建模驾驶序列中的时序依赖关系。
  • 训练采用优势学习范式,其中使用BDD数据集中提供的分割掩码作为训练期间的辅助监督信号。
  • 模型在经过筛选的1,000段视频片段数据上进行训练,运动损失与分割损失采用相等权重。
  • 预测输出包括离散动作类别(例如:左转、直行)以及连续的方向概率图。

实验结果

研究问题

  • RQ1能否从大规模、未标定的众包行车记录仪视频中学习到一种通用驾驶策略,而无需依赖仿真或特定车辆标定?
  • RQ2将语义分割作为优势辅助任务,如何提升端到端自身运动预测的性能?
  • RQ3该模型能否泛化到多样化驾驶场景,包括多模态转弯和启停行为等复杂操作?
  • RQ4与仅依赖运动监督相比,联合优化辅助任务(分割)是否能带来更快且更准确的学习效果?
  • RQ5在多样化真实条件下,模型对未见测试序列的未来行为预测能力如何?

主要发现

  • 优势训练方法在离散动作预测上达到0.697的困惑度和72.4%的准确率,优于运动反射方法(0.718困惑度,71.31%准确率)。
  • 中介感知方法(将分割与动作预测分别训练)表现更差(0.8887困惑度,61.66%准确率),证实了端到端联合学习的优势。
  • 该模型成功预测了多模态动作,如左转或直行,并在完成转弯后退化为单一模式,展现出恰当的行为建模能力。
  • 在存在障碍物或交通信号灯的场景中,优势模型即使在视觉线索模糊时也能正确预测停车行为,而基线方法则不能。
  • 该模型对不安全动作(如靠近人行道的右转)分配了零概率,表明其预测具备空间与上下文感知能力。
  • 将语义分割作为辅助任务显著提升了泛化能力与收敛速度,尤其在数据量较少的情况下更为明显。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。