Skip to main content
QUICK REVIEW

[论文解读] Temporal Logic Guided Safe Reinforcement Learning Using Control Barrier Functions

Xiao Li, Călin Belta|arXiv (Cornell University)|Mar 23, 2019
Reinforcement Learning in Robotics参考文献 27被引用 30
一句话总结

本文提出了一种强化学习框架,整合了时序逻辑、控制李雅普诺夫函数(CLFs)和控制障碍函数(CBFs),以在连续控制任务中实现安全、规范引导的学习。通过使用从时序逻辑公式导出的有限状态自动机来生成基于鲁棒性的奖励、引导探索并强制执行安全约束,该方法确保了任务的完成,同时严格避免了不安全状态,即使在环境动态未知的情况下亦然。

ABSTRACT

Using reinforcement learning to learn control policies is a challenge when the task is complex with potentially long horizons. Ensuring adequate but safe exploration is also crucial for controlling physical systems. In this paper, we use temporal logic to facilitate specification and learning of complex tasks. We combine temporal logic with control Lyapunov functions to improve exploration. We incorporate control barrier functions to safeguard the exploration and deployment process. We develop a flexible and learnable system that allows users to specify task objectives and constraints in different forms and at various levels. The framework is also able to take advantage of known system dynamics and handle unknown environmental dynamics by integrating model-free learning with model-based planning.

研究动机与目标

  • 通过使用直观的高层时序逻辑规范而非手工调校的奖励函数,解决在强化学习中指定复杂任务的挑战。
  • 通过在学习和执行过程中强制实施硬性安全约束,确保物理系统中的安全探索与部署。
  • 通过集成控制李雅普诺夫函数,引导探索朝向任务相关区域,从而提高样本效率和策略性能。
  • 通过将无模型强化学习与基于模型的安全强制(通过控制障碍函数实现)相结合,提升对未知环境动态的鲁棒性。
  • 开发一个统一的、可学习的框架,支持在多个抽象层次上灵活指定任务和约束。

提出的方法

  • 将信号时序逻辑(STL)公式的鲁棒度作为密集的、语义感知的奖励函数,自动从用户指定的逻辑规范中推导得出。
  • 从STL公式构建有限状态自动机(FSA),以编码任务目标和安全约束,实现在奖励生成、目标选择和安全集定义中的多用途应用。
  • 集成控制李雅普诺夫函数(CLFs),通过定义中间目标并鼓励系统收敛至任务相关状态,以引导探索。
  • 采用控制障碍函数(CBFs)通过确保系统状态始终位于预定义的安全集内,来强制实施硬性安全约束。
  • 将整体控制策略表述为一个二次规划问题,结合来自强化学习、CLF 和 CBF 的动作,确保实时可行性与安全性。
  • 将FSA增强的MDP框架扩展至处理硬性约束和规范违反情况,实现在学习过程中对时序逻辑规范的严格强制执行。

实验结果

研究问题

  • RQ1如何将时序逻辑规范自动转换为强化学习中具有语义感知意义的有意义奖励?
  • RQ2在不损害安全性的前提下,控制李雅普诺夫函数在复杂、长时程任务中能在多大程度上提升探索效率?
  • RQ3在具有未知环境动态的连续控制任务中,控制障碍函数能否有效强制实施硬性安全约束?
  • RQ4强化学习、CLF 和 CBF 组件的集成如何影响最终策略在训练和评估过程中的成功率与安全性?
  • RQ5超参数调优对所提框架在仿真中性能与收敛性的影响如何?

主要发现

  • 在评估中(超过20次试验),同时使用RL和CBF训练的智能体相比未使用CBF的智能体取得了更高的成功率,原因在于其持续避免了不安全区域。
  • 未使用CBF训练的智能体在评估中常试图离开安全区域以避开障碍物,当CBF被强制启用时导致失败,凸显了在部署过程中实施安全强制的重要性。
  • CLF的引入通过引导智能体朝向相关目标,改善了早期探索;而CBF则在安全集边界处防止了不安全动作。
  • 在RL、CLF和CBF联合训练的智能体中,当检测到通往附近目标g₂的路径将导致在安全边界处陷入死锁时,该智能体学会了偏离直接路径,转而选择通过g₁的替代路线。
  • 在RL+CBF配置中,智能体与移动障碍物的最小距离随时间推移而增加,表明随着学习的进行,避障能力得到了提升。
  • 该系统在未知环境动态下表现出鲁棒性能,尽管缺乏环境的精确模型,仍成功学习到了安全且符合任务要求的策略。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。