QUICK REVIEW

[论文解读] Self-Driving Car Steering Angle Prediction Based on Image Recognition

Shuyang Du, Haoli Guo|arXiv (Cornell University)|Dec 11, 2019

Autonomous Vehicle Technology and Safety参考文献 20被引用 83

一句话总结

论文比较 3D CNN+LSTM 架构与基于 ResNet50 的迁移学习模型，用于从 Udacity 的自动驾驶汽车图像预测转向角，报告 RMSE 结果和模型洞察。

ABSTRACT

Self-driving vehicles have expanded dramatically over the last few years. Udacity has release a dataset containing, among other data, a set of images with the steering angle captured during driving. The Udacity challenge aimed to predict steering angle based on only the provided images. We explore two different models to perform high quality prediction of steering angles based on images using different deep learning techniques including Transfer Learning, 3D CNN, LSTM and ResNet. If the Udacity challenge was still ongoing, both of our models would have placed in the top ten of all entries.

研究动机与目标

从驾驶图像端到端预测转向角，以减少手工规则的需求。
通过 3D 卷积和 LSTM 探索时间信息用于转向角预测。
在 Udacity 数据集上评估使用预训练模型（ResNet50）的迁移学习。
评估数据增强策略及其对模型性能的影响。
与 NVIDIA 的基线进行基准比较，并讨论对生产系统的影响。

提出的方法

开发一个带残差连接的 3D 卷积模型，后接 LSTM 层以捕捉时间信息（5 个序列共 5 帧，5x5x120x320x3，543,131 参数）。
使用在 ImageNet 上预训练的 ResNet50 进行迁移学习；冻结前大约 45 层并附加全连接层以预测转向角（1 个输出）。
应用数据增强，包括亮度、阴影、平移和旋转；将输入归一化到 [-1,1]；为与网络兼容而调整裁剪大小。
使用均方误差损失和 Adam 优化器进行训练，学习率衰减；以 RMSE 作为评估指标。
可视化显著性图以解释模型焦点，并讨论 3D-LSTM 模型中时间特征的利用。

实验结果

研究问题

RQ13D CNN + LSTM 架构是否能利用时间信息从图像序列预测转向角？
RQ2使用预训练的 ResNet50 进行迁移学习在 Udacity 数据集上是否能获得具有竞争力的转向角 RMSE？
RQ3不同数据增强水平如何影响模型性能和泛化能力？
RQ4所提模型与 NVIDIA 基线及 Udacity 挑战中的顶级条目相比如何？

主要发现

3D-CNN+LSTM 模型在测试集上的 RMSE 为 0.1123（在排行榜中大约第 10 名）。
ResNet50 迁移学习模型在测试集上实现最佳 RMSE 0.0709（在排行榜中大约第 4 名）。
在测试的训练周期内，较少的数据增强优于更重的增强；中等增强表现尚可，但有时落后于最小增强。
显著性图表明模型关注车道线和邻近物体；3D-LSTM 模型中的时间显著性突出逐帧的特征变化。
在相同评估设置下，NVIDIA 基线的 RMSE 为 0.0986（测试）和 0.0750（训练），显示所提方法的竞争性。
总体而言，使用 ResNet50 的迁移学习在没有显式时间建模的情况下提供强大性能，而 3D-LSTM 模型则在计算约束下展示了融合时间上下文的价值。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。