QUICK REVIEW

[论文解读] Autonomous Driving in Reality with Reinforcement Learning and Image Translation

Nayun Xu, Bowen Tan|arXiv (Cornell University)|Jan 13, 2018

Reinforcement Learning in Robotics参考文献 20被引用 25

一句话总结

本文提出了一种用于自动驾驶的强化学习框架，通过使用图像语义分割作为域自适应技术，弥合了仿真到现实的差距。该智能体在TORCS模拟器中使用虚拟场景的语义表示进行训练，然后通过将相同的分割应用于真实图像，将策略迁移到真实世界驾驶中；该方法在真实世界数据上实现了36.6%的动作预测准确率，优于基础强化学习方法，展现出数据高效且安全训练的潜力。

ABSTRACT

Supervised learning is widely used in training autonomous driving vehicle. However, it is trained with large amount of supervised labeled data. Reinforcement learning can be trained without abundant labeled data, but we cannot train it in reality because it would involve many unpredictable accidents. Nevertheless, training an agent with good performance in virtual environment is relatively much easier. Because of the huge difference between virtual and real, how to fill the gap between virtual and real is challenging. In this paper, we proposed a novel framework of reinforcement learning with image semantic segmentation network to make the whole model adaptable to reality. The agent is trained in TORCS, a car racing simulator.

研究动机与目标

通过使用语义分割作为域自适应机制，解决自动驾驶强化学习中的仿真到现实泛化差距问题。
通过在训练过程中完全不使用标注的动作数据，减少对大规模人工标注数据集的依赖。
通过将视觉输入抽象为保留关键驾驶信息的语义表示，提升强化学习智能体的鲁棒性和可迁移性。
实现在仿真环境中安全训练，同时在真实世界环境中部署时仍能保持性能。
评估灰度语义图像与RGB语义图像作为强化学习智能体输入空间观察值的有效性。

提出的方法

强化学习智能体在TORCS模拟器中使用从第一人称摄像头视图生成的语义分割图进行训练。
基于PSPNet的图像翻译网络将原始模拟器图像转换为语义分割输出，作为智能体的观察输入。
在推理阶段，将相同的PSPNet应用于真实世界驾驶图像，以生成训练智能体一致的语义输入。
智能体使用包含4层卷积的演员网络，激活函数为ReLU，共9种离散动作（方向盘、油门和刹车的组合）。
训练采用A3C算法，配备12条异步线程，使用RMSProp优化器，超参数设置为：初始初始学习率 = 0.01，γ = 0.9，ε = 0.1。
通过预设的基于阈值的映射方法，将真实世界方向盘角度映射为离散动作以评估性能。

实验结果

研究问题

RQ1在强化学习中，语义分割能否有效缩小仿真与真实世界驾驶环境之间的域差距？
RQ2与RGB语义输入相比，使用灰度语义图像作为输入是否能提升泛化能力和性能？
RQ3在未进行任何微调或使用标注动作数据的情况下，于仿真环境中训练的强化学习智能体在真实世界驾驶数据上的性能如何？
RQ4基于共享分割网络的域自适应策略是否能提升自动驾驶中的仿真到现实迁移性能？
RQ5分割质量对真实世界部署中最终策略性能有何影响？

主要发现

该模型在真实世界驾驶数据上实现了36.6%的动作预测准确率，优于基础强化学习基线（28.1%），也优于同一任务上的监督模型（52.6%）。
将灰度语义图像作为智能体输入，相比使用RGB语义图像，带来了更好的泛化能力和更高的性能。
该框架成功地将仿真环境中训练的策略迁移到真实世界驾驶中，且无需任何真实世界标注数据。
性能受限于语义分割的质量，表明未来分割性能的提升将直接增强策略表现。
结果表明，语义分割作为一种有效的抽象层，能够在减少视觉噪声和域偏移的同时，保留关键驾驶信息。
该方法通过共享分割网络对齐虚拟与真实环境的智能体输入分布，有效弥合了仿真到现实的差距。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。