QUICK REVIEW

[论文解读] End-to-End Safe Reinforcement Learning through Barrier Functions for Safety-Critical Continuous Control Tasks

Richard Cheng, Gábor Orosz|arXiv (Cornell University)|Mar 21, 2019

Autonomous Vehicle Technology and Safety参考文献 28被引用 43

一句话总结

本文提出 RL-CBF，这是一个将 model-free RL 与 model-based 控制障碍函数（CBFs）以及通过 Gaussian Processes 的在线动力学学习相结合的框架，以在学习过程中保证安全并在非线性控制任务中提高样本效率。

ABSTRACT

Reinforcement Learning (RL) algorithms have found limited success beyond simulated applications, and one main reason is the absence of safety guarantees during the learning process. Real world systems would realistically fail or break before an optimal controller can be learned. To address this issue, we propose a controller architecture that combines (1) a model-free RL-based controller with (2) model-based controllers utilizing control barrier functions (CBFs) and (3) on-line learning of the unknown system dynamics, in order to ensure safety during learning. Our general framework leverages the success of RL algorithms to learn high-performance controllers, while the CBF-based controllers both guarantee safety and guide the learning process by constraining the set of explorable polices. We utilize Gaussian Processes (GPs) to model the system dynamics and its uncertainties. Our novel controller synthesis algorithm, RL-CBF, guarantees safety with high probability during the learning process, regardless of the RL algorithm used, and demonstrates greater policy exploration efficiency. We test our algorithm on (1) control of an inverted pendulum and (2) autonomous car-following with wireless vehicle-to-vehicle communication, and show that our algorithm attains much greater sample efficiency in learning than other state-of-the-art algorithms and maintains safety during the entire learning process.

研究动机与目标

在现实世界、涉及安全的连续控制任务中激发安全探索。
通过将 model-free RL 与控制障碍函数（CBFs）以及在线动力学学习相结合，开发在学习过程中能够保证安全的框架。
通过用 CBF 限制探索策略空间并在线学习动力学，提高探索效率和样本效率。

提出的方法

使用 Gaussian Processes 来建模未知动力学 d(s) 并获得高置信界（mu_d, sigma_d）。
通过线性障碍函数 h(s) 定义安全集 C，并使用离散时间 CBF 将前向不变性强制执行，形式化为二次规划（QP）。
将一个 model-free RL 控制器 u_RL 与一个 CBF 控制器整合，通过投影式 QP（u = u_RL + u_CBF）创建一个安全的端到端控制器。
扩展到由 CBF 引导的探索：将先前的 CBF 修正累积成一个引导项 u_bar，使 RL 更新向安全区域偏移，并求解一个联合 QP 以获得部署的动作。
提供理论上的安全保证：若 QP 的松弛项为零（epsilon=0），在概率 1-δ 下安全集是前向不变的；若松弛项有界，安全性扩展到扩大的集合 C_ε，概率同样为 1-δ。
通过用神经网络近似过去 CBF 项的和，提供一种高效的计算实现，以降低在线复杂度。

实验结果

研究问题

RQ1能否通过将 model-based 控制障碍函数（CBFs）应用于学习过程，使 model-free RL 算法在学习过程中保持安全？
RQ2通过高斯过程的动力学在线学习是否能够实现可靠的安全保证和对障碍控制器的自适应保守性？
RQ3用 CBF 指引策略探索是否能在非线性控制任务中提升样本效率，相较于标准的 model-free RL？
RQ4是否可将 RL 与 CBF 以一种既保持安全又达到或超过基线 RL 方法性能的方式集成？
RQ5在实际任务如倒立摆控制和车距跟随等具有现实特性的任务中，RL-CBF 的实际好处与局限性是什么？

主要发现

RL-CBF 在评估任务中比 TRPO 或 DDPG 基线具有更快的学习和更高的样本效率。
RL-CBF 框架在学习过程中通过将系统保持在安全集合 C 内（带有概率保证）来维持安全性。
在实验中，TRPO-CBF 和 DDPG-CBF 能迅速收敛到高性能控制器，并避免了标准 RL 方法在学习过程中出现的不安全波动。
随着引导的 RL 控制器学习出安全策略，CBF 组件很快变得不活跃，表明安全干预随时间有效减少。
一种实际的扩展使用带上限的神经网络来近似过去的 CBF 贡献，在保持安全保证的同时降低在线计算量。
与基线相比，倒立摆任务保持了安全性并实现了更快的学习；车距跟随任务展示了在 CBF 指引下的安全且改进的策略搜索。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。