QUICK REVIEW

[论文解读] Interpretable End-to-end Urban Autonomous Driving with Latent Deep Reinforcement Learning

Jianyu Chen, Shengbo Eben Li|arXiv (Cornell University)|Jan 23, 2020

Reinforcement Learning in Robotics参考文献 44被引用 24

一句话总结

本文提出了一种用于可解释端到端城市自动驾驶的潜在深度强化学习框架，其中序列潜在环境模型将原始摄像头和激光雷达输入压缩到低维潜在空间。该方法通过语义鸟瞰图掩码解码实现策略可解释性，在复杂城市场景中相较于DQN、DDPG、TD3和SAC基线模型表现出更优性能，重建掩码与真实掩码之间的平均像素差异为0.032。

ABSTRACT

Unlike popular modularized framework, end-to-end autonomous driving seeks to solve the perception, decision and control problems in an integrated way, which can be more adapting to new scenarios and easier to generalize at scale. However, existing end-to-end approaches are often lack of interpretability, and can only deal with simple driving tasks like lane keeping. In this paper, we propose an interpretable deep reinforcement learning method for end-to-end autonomous driving, which is able to handle complex urban scenarios. A sequential latent environment model is introduced and learned jointly with the reinforcement learning process. With this latent model, a semantic birdeye mask can be generated, which is enforced to connect with a certain intermediate property in today's modularized framework for the purpose of explaining the behaviors of learned policy. The latent space also significantly reduces the sample complexity of reinforcement learning. Comparison tests with a simulated autonomous car in CARLA show that the performance of our method in urban scenarios with crowded surrounding vehicles dominates many baselines including DQN, DDPG, TD3 and SAC. Moreover, through masked outputs, the learned policy is able to provide a better explanation of how the car reasons about the driving environment. The codes and videos of this work are available at our github repo and project website.

研究动机与目标

解决端到端深度强化学习在自动驾驶中缺乏可解释性的问题。
通过联合潜在环境模型减少在学习复杂城市驾驶策略时的样本复杂度。
通过将学习到的潜在状态与模块化框架组件（如目标检测和定位）对齐，实现策略决策的可解释性。
在拥挤、动态的城市场景中提升泛化能力和性能，超越简单的车道保持等任务。
提供一种框架，将端到端学习与可解释的模块化推理相结合，同时不牺牲端到端集成的优势。

提出的方法

与最大熵深度强化学习联合训练一个序列潜在环境模型，将高维原始观测（摄像头和激光雷达）压缩到低维潜在空间。
将潜在状态解码为语义鸟瞰图掩码，反映可行驶区域、道路标线和周围车辆，从而实现可解释性。
掩码生成受到约束，以与传统模块化组件（如目标检测、定位）的中间输出对齐，为传统系统理解提供桥梁。
采用变分推理框架与概率图模型，对潜在空间中的时间依赖性进行建模。
使用最大熵强化学习（如SAC）训练策略，潜在状态作为状态表示，以提升样本效率。
在CARLA仿真器中端到端训练模型，使用原始传感器输入和端到端控制输出。

实验结果

研究问题

RQ1在端到端深度强化学习中，潜在空间表示是否能提升自动驾驶策略的可解释性？
RQ2联合学习潜在环境模型与策略在复杂城市驾驶任务中如何降低样本复杂度？
RQ3解码后的语义鸟瞰图掩码在多大程度上能提供有意义且人类可理解的代理感知与决策解释？
RQ4该方法是否能在拥挤城市驾驶场景中超越标准深度强化学习基线模型（如DQN、SAC）？
RQ5策略的失败模式是什么？潜在模型是否能通过掩码重建帮助诊断这些失败？

主要发现

所提方法在CARLA仿真器中的高密度车辆城市驾驶场景中显著优于DQN、DDPG、TD3和SAC。
在10,000帧测试中，重建语义鸟瞰图掩码与真实掩码之间的平均像素差异为0.032，表明重建精度高。
发生碰撞的失败案例具有可解释性：模型揭示了诸如遗漏周围车辆或错误定位自身车道内车辆等误判。
潜在空间即使在未对这些要素进行显式监督的情况下，也能实现对可行驶区域、道路标线和周围车辆的准确检测。
该方法通过从原始传感器输入中提取紧凑且有意义的状态表示，降低了样本复杂度。
语义掩码解码在端到端学习与模块化系统组件之间提供功能性桥梁，支持对策略行为的后验解释。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。