QUICK REVIEW

[论文解读] Virtual to Real Reinforcement Learning for Autonomous Driving

Xinlei Pan, Yurong You|arXiv (Cornell University)|Apr 13, 2017

Reinforcement Learning in Robotics参考文献 29被引用 149

一句话总结

该论文提出一种现实翻译网络，通过场景解析将虚拟仿真器帧转换为现实图像，使在仿真中训练的强化学习代理能够有效迁移到现实世界的驱动任务。

ABSTRACT

Reinforcement learning is considered as a promising direction for driving policy learning. However, training autonomous driving vehicle with reinforcement learning in real environment involves non-affordable trial-and-error. It is more desirable to first train in a virtual environment and then transfer to the real environment. In this paper, we propose a novel realistic translation network to make model trained in virtual environment be workable in real world. The proposed network can convert non-realistic virtual image input into a realistic one with similar scene structure. Given realistic frames as input, driving policy trained by reinforcement learning can nicely adapt to real world driving. Experiments show that our proposed virtual to real (VR) reinforcement learning (RL) works pretty well. To our knowledge, this is the first successful case of driving policy trained by reinforcement learning that can adapt to real world driving data.

研究动机与目标

通过在实际部署前在虚拟环境中训练来实现安全、低成本的策略学习。
开发一个两阶段的图像翻译管道，在将虚拟图像转换为逼真图像的同时保持场景解析结构。
证明用翻译得到的逼真图像训练的 RL 代理在性能上优于仅在虚拟域中训练或使用领域随机化的方法。
与监督学习基线进行比较，以评估在真实驾驶任务中的数据效率和泛化能力。

提出的方法

引入一个两模块的现实翻译网络：virtual-to-parsing（虚拟图像到场景解析图）和parsing-to-real（解析图到真实图像）。
使用带有 L1 损失的条件GAN目标来训练翻译网络，以减少模糊（G* = arg min_G max_D L_cGAN + lambda L1）。
使用 SegNet 风格的语义分割来获得场景解析表示，作为连接虚拟和真实图像的中间域。
用 Asynchronous Advantage Actor-Critic (A3C) 训练一个 RL 代理，使用经过现实翻译的帧作为状态输入来学习驾驶策略。
通过将真实世界的转向标签映射到仿真器动作来评估转向/动作的准确性，以实现公平比较。
基准对比于纯虚拟的（B-RL）代理和使用真实驾驶数据的监督（SV）模型。

实验结果

研究问题

RQ1通过场景解析的中间表示将虚拟图像翻译为真实帧，是否能让在仿真中训练的 RL 策略迁移到现实世界的驾驶？
RQ2在真实驾驶数据上，VR RL 与解析-到-真实图像合成相较于领域随机化 RL 和纯监督基线是否具有更好的表现？
RQ3使用基于分割的桥接而非直接的虚拟到真实映射对策略迁移的影响如何？
RQ4所提出的方法在跨不同虚拟驾驶环境的迁移学习中表现如何？

主要发现

准确率
Ours 43.40%
B-RL 28.33%
SV 53.60%

VR RL 方法在动作预测准确性方面高于仅使用虚拟输入的基线 RL（43.40% 对 28.33%）。
监督学习在准确性上达到最佳（53.60%），但需要大量带标签数据。
VR RL 在虚拟环境之间的迁移实验中优于领域随机化 RL。
图像到分割到图像的翻译保留了场景结构，使得得到的真实帧适合 RL 训练。
基于分割的中介使得在虚拟与真实域之间翻译成为可行，即使没有成对的虚拟-真实数据。
该方法展示了首次通过 RL 训练的驾驶策略能够适应真实世界驾驶数据的成功案例。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。