[论文解读] Learning a Driving Simulator
本文通过将道路帧嵌入到由 GAN 基成本引导的变分自编码器的高斯潜在空间来实现驾驶场景的模拟,然后使用一个以动作为条件的 RNN 建模转移,以在不进行端到端像素空间优化的情况下预测未来帧。
Comma.ai's approach to Artificial Intelligence for self-driving cars is based on an agent that learns to clone driver behaviors and plans maneuvers by simulating future events in the road. This paper illustrates one of our research approaches for driving simulation. One where we learn to simulate. Here we investigate variational autoencoders with classical and learned cost functions using generative adversarial networks for embedding road frames. Afterwards, we learn a transition model in the embedded space using action conditioned Recurrent Neural Networks. We show that our approach can keep predicting realistic looking video for several frames despite the transition model being optimized without a cost function in the pixel space.
研究动机与目标
- 为依赖学习到的视频预测而非手工设计的仿真器的自动驾驶汽车的基于视觉的方法提供动机。
- 为可控的动力学预测开发道路视频帧的紧凑潜在表征。
- 证明学习到的转移模型能够在潜在空间内预测现实的未来帧,同时保持在高密度区域内。
- 公开驾驶数据集和代码,以促进学习驱动仿真的进一步研究。
提出的方法
- 使用 VAE/GAN 混合自编码器将道路帧嵌入到高斯潜在空间中,生成大小为 2048 的紧凑表示 z_t。
- 训练一个以动作为条件的 RNN 作为转移模型,以从 z_t 和控制量 S_t, A_t 预测 z_{t+1}。
- 使用基于 GAN 的生成器解码预测的潜在编码以呈现未来帧。
- 在序列的前段使用教师强制策略,在后续帧中使用幻觉(反馈)来训练转移模型。
- 使用结合 KL 散度、基于判别器的特征匹配以及如 Larsen 等人 2015 年所述的 GAN 损失的综合损失来优化自编码器。
实验结果
研究问题
- RQ1学习到的潜在空间是否能够捕捉到真实驾驶场景用于视频预测的本质结构?
- RQ2潜在空间中的转移模型是否能够在给定车辆控制条件下生成真实的未来帧?
- RQ3将 VAE 和 GAN 目标结合是否相较于像素空间的 MSE 训练能产生视觉上更真实的帧?
- RQ4学习的驾驶仿真器在未来多远能够预测真实的道路场景?
- RQ5发布了哪些数据集和代码以实现对学习驱动仿真器的复现和进一步研究?
主要发现
- 带有 GAN 基成本的自编码器比基于 MSE 的重建产生更真实的道路纹理。
- 转移模型保持道路结构,能够生成大约 100 帧左右的合理序列,包括如经过车道和前车变换等事件。
- 转移模型在曲线情境下有时表现不佳,倾向于在曲线路段拉直车道,表明需要更先进的序列模型和上下文融合。
- 使用不同种子进行采样会产生不同的驾驶事件,表明模型在潜在空间学习到有意义的动力学。
- 实现了紧凑的潜在表示(2048 维),在潜在空间中实现可扩展预测,同时保持在潜在先验的高密度区域内。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。