QUICK REVIEW

[论文解读] End-to-end Learning of Driving Models from Large-scale Video Datasets

Huazhe Xu, Yang Gao|arXiv (Cornell University)|Dec 4, 2016

Autonomous Vehicle Technology and Safety参考文献 27被引用 38

一句话总结

本文提出一种端到端的FCN-LSTM架构，从大规模众包获取的行车记录仪视频中学习通用的驾驶策略，能够从单目图像和先前状态预测多模态未来自身运动。通过将语义分割作为优势辅助任务，该模型在未见序列上的驾驶员行为预测性能显著优于基线模型，在困惑度和准确率方面均表现更优。

ABSTRACT

Robust perception-action models should be learned from training data with diverse visual appearances and realistic behaviors, yet current approaches to deep visuomotor policy learning have been generally limited to in-situ models learned from a single vehicle or a simulation environment. We advocate learning a generic vehicle motion model from large scale crowd-sourced video data, and develop an end-to-end trainable architecture for learning to predict a distribution over future vehicle egomotion from instantaneous monocular camera observations and previous vehicle state. Our model incorporates a novel FCN-LSTM architecture, which can be learned from large-scale crowd-sourced vehicle action data, and leverages available scene segmentation side tasks to improve performance under a privileged learning paradigm.

研究动机与目标

开发一种通用的、可端到端训练的视觉-运动策略，能够在不依赖特定车辆标定的情况下泛化于多种驾驶场景。
实现从大规模、未标定的众包行车记录仪视频数据中进行学习，而非依赖仿真或现场录制数据。
通过引入语义分割作为优势学习信号，提升端到端自身运动预测的性能。
整理并发布一个大规模、多样化的驾驶数据集，适用于训练通用驾驶模型。
评估模型在多样化真实场景下对未见序列的未来驾驶行为预测能力。

提出的方法

该模型采用一种新型的FCN-LSTM架构，处理单目视频帧和先前车辆状态，以预测未来自身运动的概率分布。
通过多任务学习框架，联合优化驾驶动作预测（运动损失）和语义分割（辅助任务损失）。
该架构将预训练全卷积网络（FCN）的特征与LSTM结合，以建模驾驶序列中的时序依赖关系。
训练采用优势学习范式，其中使用BDD数据集中提供的分割掩码作为训练期间的辅助监督信号。
模型在经过筛选的1,000段视频片段数据上进行训练，运动损失与分割损失采用相等权重。
预测输出包括离散动作类别（例如：左转、直行）以及连续的方向概率图。

实验结果

研究问题

RQ1能否从大规模、未标定的众包行车记录仪视频中学习到一种通用驾驶策略，而无需依赖仿真或特定车辆标定？
RQ2将语义分割作为优势辅助任务，如何提升端到端自身运动预测的性能？
RQ3该模型能否泛化到多样化驾驶场景，包括多模态转弯和启停行为等复杂操作？
RQ4与仅依赖运动监督相比，联合优化辅助任务（分割）是否能带来更快且更准确的学习效果？
RQ5在多样化真实条件下，模型对未见测试序列的未来行为预测能力如何？

主要发现

优势训练方法在离散动作预测上达到0.697的困惑度和72.4%的准确率，优于运动反射方法（0.718困惑度，71.31%准确率）。
中介感知方法（将分割与动作预测分别训练）表现更差（0.8887困惑度，61.66%准确率），证实了端到端联合学习的优势。
该模型成功预测了多模态动作，如左转或直行，并在完成转弯后退化为单一模式，展现出恰当的行为建模能力。
在存在障碍物或交通信号灯的场景中，优势模型即使在视觉线索模糊时也能正确预测停车行为，而基线方法则不能。
该模型对不安全动作（如靠近人行道的右转）分配了零概率，表明其预测具备空间与上下文感知能力。
将语义分割作为辅助任务显著提升了泛化能力与收敛速度，尤其在数据量较少的情况下更为明显。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。