Skip to main content
QUICK REVIEW

[论文解读] Safe Exploration in Continuous Action Spaces

Gal Dalal, Krishnamurthy Dvijotham|arXiv (Cornell University)|Jan 26, 2018
Reinforcement Learning in Robotics参考文献 16被引用 274
一句话总结

引入一种逐状态的安全层,在学习过程中对行动进行分析性修正以满足逐状态的安全约束,从而在连续动作空间中使用线性单步安全模型实现零违约探索。

ABSTRACT

We address the problem of deploying a reinforcement learning (RL) agent on a physical system such as a datacenter cooling unit or robot, where critical constraints must never be violated. We show how to exploit the typically smooth dynamics of these systems and enable RL algorithms to never violate constraints during learning. Our technique is to directly add to the policy a safety layer that analytically solves an action correction formulation per each state. The novelty of obtaining an elegant closed-form solution is attained due to a linearized model, learned on past trajectories consisting of arbitrary actions. This is to mimic the real-world circumstances where data logs were generated with a behavior policy that is implausible to describe mathematically; such cases render the known safety-aware off-policy methods inapplicable. We demonstrate the efficacy of our approach on new representative physics-based environments, and prevail where reward shaping fails by maintaining zero constraint violations.

研究动机与目标

  • 在物理系统的强化学习训练中确保逐状态约束零违约。
  • 利用单步动力学从已记录数据中预训练线性安全模型。
  • 将可微分安全层附加到任意连续控制策略以强化安全性。
  • 证明安全感知学习相对于奖励塑形在收敛性和性能方面的改进。

提出的方法

  • 使用随机动作日志的单步转移数据训练一个状态条件线性安全模型 c̄i(s′) ≈ c̄i(s) + g(s;w_i)ᵀ a(Equation 2)。
  • 在数据集 D 的 (s,a,s′) 元组上预训练 g(s;w_i),以预测安全信号的变化。
  • 在策略之上附加一个安全层,解决一个约束投影问题:在 c̄i(s) + g(s;w_i)ᵀ a ≤ Ci 的约束下最小化 ||a−μθ(s)||²(Equation 4)。
  • 在单一主动约束假设下得到闭式解:a* = μθ(s) − λ*i* g(s;w_i*)(Equations 5–6)。
  • 将该层与 Deep Deterministic Policy Gradient (DDPG) 或任何连续控制算法一起使用;该层可微且轻量。

实验结果

研究问题

  • RQ1在学习中是否可以在连续动作空间内在不假设已知行为策略的情况下保证逐状态的安全约束?
  • RQ2是否仅从随机日志中学习的线性单步安全模型足以通过闭式行动修正来强制安全?
  • RQ3与奖励塑形相比,带安全层的学习在安全保证和收敛效率方面有何差异?
  • RQ4该方法是否可应用于具有不同安全信号和约束的多个基于物理的领域?
  • RQ5单一主动约束假设对实际性能和安全性有何影响?

主要发现

  • 安全层在所有种子和任务中强制零约束违反。
  • 与在没有安全层的学习以及与奖励塑形相比,该方法加速收敛。
  • 采用安全层时,DDPG 在经测试的领域保持安全并实现更高的贴现奖励。
  • 奖励塑形无法保证零违约,且可能阻碍收敛,而安全层则保证安全并提升学习速度。
  • 该方法与机器人无关,可以添加到任何连续控制算法,而不限于特定的 RL 方法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。