QUICK REVIEW

[论文解读] Reinforcement Learning and Deep Learning based Lateral Control for Autonomous Driving

Dong Li, Dongbin Zhao|arXiv (Cornell University)|Oct 30, 2018

Reinforcement Learning in Robotics参考文献 49被引用 39

一句话总结

本文提出了一种基于视觉的自动驾驶横向控制框架，通过多任务深度学习（MTL-CNN）进行特征提取，结合基于PPO的深度强化学习（策略梯度）实现控制，实现感知与控制的解耦。MTL-RL控制器在多种赛道上优于LQR和MPC，仅依赖视觉输入即可实现稳定、精确的车道保持，其有效性通过新型仿真器（VTORCS）得到验证。

ABSTRACT

This paper investigates the vision-based autonomous driving with deep learning and reinforcement learning methods. Different from the end-to-end learning method, our method breaks the vision-based lateral control system down into a perception module and a control module. The perception module which is based on a multi-task learning neural network first takes a driver-view image as its input and predicts the track features. The control module which is based on reinforcement learning then makes a control decision based on these features. In order to improve the data efficiency, we propose visual TORCS (VTORCS), a deep reinforcement learning environment which is based on the open racing car simulator (TORCS). By means of the provided functions, one can train an agent with the input of an image or various physical sensor measurement, or evaluate the perception algorithm on this simulator. The trained reinforcement learning controller outperforms the linear quadratic regulator (LQR) controller and model predictive control (MPC) controller on different tracks. The experiments demonstrate that the perception module shows promising performance and the controller is capable of controlling the vehicle drive well along the track center with visual input.

研究动机与目标

开发一种鲁棒的端到端视觉横向控制系ystem，避免纯端到端学习中的误差累积问题。
通过在卷积神经网络中联合学习多个与赛道相关的特征（如距车道中心距离、航向角差），提升数据效率与感知精度。
设计一种无需显式车辆动力学模型的无模型强化学习控制器，实现对多样化赛道条件的泛化能力。
构建一个高保真度、可访问的仿真环境（VTORCS），用于训练和评估基于视觉的自动驾驶智能体。

提出的方法

感知模块采用多任务学习卷积神经网络（MTL-CNN），处理驾驶员视角图像，同时预测关键赛道特征：距车道中心距离与航向角差异。
控制模块采用策略梯度强化学习算法（具体为PPO），基于预测的赛道特征生成转向指令。
开发了一款新型仿真环境——视觉TORCS（VTORCS），基于TORCS构建，支持图像与传感器输入，用于强化学习训练与感知评估。
MTL-CNN通过最小化联合损失函数进行训练，该损失函数结合了距中心距离与航向角的回归损失。
强化学习智能体通过密集奖励、稀疏奖励与塑形奖励进行训练，以鼓励保持车道中心与平顺转向。
系统在多种赛道（如g-track-3、alpine-2）上进行评估，比较其与LQR和MPC控制器的性能表现。

实验结果

研究问题

RQ1多任务深度学习感知网络能否通过联合学习相关任务（如距车道中心距离与航向角）提升从单目图像中预测关键赛道特征的准确度与鲁棒性？
RQ2在多样化、未见过的赛道环境中，基于MTL预测特征训练的策略梯度强化学习控制器是否优于经典模型基控制器（LQR、MPC）？
RQ3在数据效率与策略泛化方面，感知与强化学习模块的集成相较于端到端学习有何优势？
RQ4所提出的VTORCS仿真器在多大程度上实现了视觉自动驾驶智能体的高效且真实的训练？
RQ5当感知输入存在噪声时，MTL-RL控制器在性能上是否优于使用相同特征的基于模型的LQR控制器？

主要发现

MTL-CNN感知模块的测试误差低于单任务基线模型，表明联合学习相关任务（如距车道中心距离与航向角）可提升特征表示能力。
MTL-RL控制器仅使用视觉输入即成功完成g-track-3赛道的完整一圈行驶，而Chen的单任务感知方法在阴影重重的急弯处失败。
在alpine-2赛道上，MTL-RL控制器的平均车道偏离距离为0.148 m，优于MTL-LQR控制器的0.175 m，表明其对感知噪声具有更强的鲁棒性。
MTL-RL控制器在所有测试赛道上均优于LQR与MPC控制器，展现出优异的泛化能力与适应性。
VTORCS仿真器实现了高效的数据采集，并提供了一个真实、可访问的平台，用于训练与评估基于视觉的强化学习智能体。
强化学习控制器对感知特征噪声表现出更强的鲁棒性，在MTL-CNN预测不完美时仍能维持稳定控制。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。