QUICK REVIEW

[论文解读] Reinforcement Learning with Probabilistic Guarantees for Autonomous Driving

Maxime Bouton, Jesper Karlsson|arXiv (Cornell University)|Apr 15, 2019

Autonomous Vehicle Technology and Safety参考文献 19被引用 31

一句话总结

本文提出了一种强化学习框架，通过在线性时序逻辑（LTL）表达的安全规范，对自动驾驶中的概率性保证进行强制执行。通过模型检测预先计算安全动作，并将探索限制在仅这些动作上，该方法确保策略以用户定义的置信度满足LTL公式，显著提升了训练稳定性和安全性，同时简化了奖励工程，在无信号交叉路口场景（含行人和车辆）中得到验证。

ABSTRACT

Designing reliable decision strategies for autonomous urban driving is challenging. Reinforcement learning (RL) has been used to automatically derive suitable behavior in uncertain environments, but it does not provide any guarantee on the performance of the resulting policy. We propose a generic approach to enforce probabilistic guarantees on an RL agent. An exploration strategy is derived prior to training that constrains the agent to choose among actions that satisfy a desired probabilistic specification expressed with linear temporal logic (LTL). Reducing the search space to policies satisfying the LTL formula helps training and simplifies reward design. This paper outlines a case study of an intersection scenario involving multiple traffic participants. The resulting policy outperforms a rule-based heuristic approach in terms of efficiency while exhibiting strong guarantees on safety.

研究动机与目标

解决自动驾驶强化学习中性能保证不足的问题。
实现可证明满足复杂安全规范（以线性时序逻辑LTL表达）的策略训练。
通过将安全约束与奖励设计解耦，简化奖励函数设计。
在不确定的多智能体驾驶环境中，提升训练效率与策略可靠性。
提供一种可扩展、通用的框架，适用于特定驾驶场景之外的多种应用。

提出的方法

将自动驾驶环境建模为马尔可夫决策过程（MDP）。
使用模型检测，在每个状态预先识别出满足给定LTL规范且具有所需概率的动作集合。
在训练期间，将强化学习智能体的动作空间限制为仅包含模型检测器判定为安全的动作。
在受限动作空间上应用标准强化学习算法（例如PPO）以最大化累积奖励。
利用无限时域模型检测处理LTL中的长期时间属性。
将模型检测步骤中的概率保证传递至最终训练得到的策略。

实验结果

研究问题

RQ1我们能否在确保安全规范的概率保证下，训练用于自动驾驶的强化学习智能体？
RQ2将探索限制在仅LTL兼容动作上，对训练稳定性和收敛性有何影响？
RQ3在多目标驾驶场景中，该方法在多大程度上可简化奖励函数设计？
RQ4与基于规则的策略和标准强化学习基线相比，该安全强化学习策略在安全性与效率方面的表现如何？
RQ5该框架能否推广至具有多个交互智能体的复杂、不确定环境中？

主要发现

安全强化学习策略在10,000次仿真中碰撞率为0.00%，展现出强大的安全保证。
安全强化学习策略在效率方面优于基于规则的启发式方法，平均到达目标时间分别为28.47秒与30.00秒。
标准强化学习策略效率更高（平均到达时间22.16秒），但碰撞率为0.96%，表明安全性较差。
该安全强化学习方法实现了基于奖励权重调节无法达到的安全-效率帕累托前沿新操作点。
安全强化学习的训练过程稳定，训练期间未发生任何碰撞，证实了动作空间约束的有效性。
该方法成功地将模型检测中的概率保证传递至最终策略，确保了安全性的最低置信水平为0.9999。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。