QUICK REVIEW

[论文解读] Combining Deep Reinforcement Learning and Safety Based Control for Autonomous Driving

Xi Xiong, Jianqiang Wang|arXiv (Cornell University)|Dec 1, 2016

Reinforcement Learning in Robotics参考文献 12被引用 65

一句话总结

本文提出了一种用于自动驾驶的混合控制框架，结合深度确定性策略梯度（DDPG）以在熟悉环境中实现端到端策略学习，同时结合人工势场（APF）实现实时动态交通中的碰撞规避。该方法在混合场景中实现了稳定的路径跟踪与可靠的行车安全，性能优于单独使用强化学习或基于安全的方法。

ABSTRACT

With the development of state-of-art deep reinforcement learning, we can efficiently tackle continuous control problems. But the deep reinforcement learning method for continuous control is based on historical data, which would make unpredicted decisions in unfamiliar scenarios. Combining deep reinforcement learning and safety based control can get good performance for self-driving and collision avoidance. In this passage, we use the Deep Deterministic Policy Gradient algorithm to implement autonomous driving without vehicles around. The vehicle can learn the driving policy in a stable and familiar environment, which is efficient and reliable. Then we use the artificial potential field to design collision avoidance algorithm with vehicles around. The path tracking method is also taken into consideration. The combination of deep reinforcement learning and safety based control performs well in most scenarios.

研究动机与目标

解决深度强化学习（DRL）在不熟悉驾驶场景中出现的不稳定与不可预测问题。
通过集成基于物理的碰撞规避机制，提升动态交通中的安全性。
在结构化环境中实现可靠的路径跟踪与高效的策略学习。
结合DRL的样本效率与势场方法的实时安全保证。
在包括密集交通在内的多种驾驶场景中评估混合系统的性能。

提出的方法

使用深度确定性策略梯度（DDPG）训练一个深度强化学习智能体，用于在静态、熟悉环境中实现自动驾驶。
采用人工势场（APF）生成来自附近车辆的排斥力，实现实时碰撞规避。
集成路径跟踪控制，以保持车辆沿规划路径的行驶轨迹。
根据交通密度与环境熟悉度，在DDPG策略与基于APF的控制之间进行切换。
使用连续控制动作训练DDPG智能体，实现平滑的转向与加速决策。
将学习到的策略与安全约束相结合，确保在边缘情况下的鲁棒性。

实验结果

研究问题

RQ1通过与基于安全的控制方法集成，能否使深度强化学习在不熟悉驾驶场景中更具鲁棒性？
RQ2将DDPG与人工势场结合，对碰撞规避性能有何影响？
RQ3混合控制对路径跟踪精度与驾驶平顺性有何影响？
RQ4在同时存在静态与动态障碍物的混合环境中，系统表现如何？
RQ5在真实驾驶任务中，该混合方法是否优于纯DRL或纯基于安全的控制方法？

主要发现

该混合系统在熟悉环境与动态环境中均实现了稳定可靠的驾驶性能。
DDPG与APF的集成显著提升了在密集交通场景中的碰撞规避能力。
该方法在确保通过实时势场调整实现安全的同时，保持了精确的路径跟踪。
在不熟悉场景中表现出鲁棒性，而纯DRL因泛化能力不足而会失效。
两者结合的性能优于单独使用DDPG或APF。
该方法在结构化环境中实现了高效的策略学习，同时在不可预测的交通中确保了安全性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。