Skip to main content
QUICK REVIEW

[论文解读] Projection-Based Constrained Policy Optimization

Tsung-Yen Yang, Justinian Rosca|arXiv (Cornell University)|Oct 7, 2020
Reinforcement Learning in Robotics参考文献 19被引用 81
一句话总结

PCPO 是一个两步迭代的 RL 算法,先在信任域内改进奖励,然后将策略投影到约束集以确保满足安全或其他成本约束,并对奖励与约束界限有理论保证。

ABSTRACT

We consider the problem of learning control policies that optimize a reward function while satisfying constraints due to considerations of safety, fairness, or other costs. We propose a new algorithm, Projection-Based Constrained Policy Optimization (PCPO). This is an iterative method for optimizing policies in a two-step process: the first step performs a local reward improvement update, while the second step reconciles any constraint violation by projecting the policy back onto the constraint set. We theoretically analyze PCPO and provide a lower bound on reward improvement, and an upper bound on constraint violation, for each policy update. We further characterize the convergence of PCPO based on two different metrics: $ ormltwo$ norm and Kullback-Leibler divergence. Our empirical results over several control tasks demonstrate that PCPO achieves superior performance, averaging more than 3.5 times less constraint violation and around 15\% higher reward compared to state-of-the-art methods.

研究动机与目标

  • 在 CMDP 中激励学习控制策略,使在预定义的安全性、公平性或成本约束下最大化奖励。
  • 开发一个两步策略更新,将奖励改进与约束投影结合以保持可行性。
  • 提供每次更新在奖励改进和约束违反方面的理论界限。
  • 提供具有收敛性保证的实用算法并在控制任务上进行经验验证。

提出的方法

  • 两步更新:(1) 在 KL 救域内的 TRPO 类步骤通过奖励改进实现。
  • (2) 投影步骤,在强制约束的前提下通过投影更新把中间策略与目标策略之间的距离最小化。
  • 投影可以在策略空间使用 KL 发散或在参数空间使用 L2 范数。
  • 理论界限:每次更新的奖励改进下界和约束违反上界(定理 3.1 与 3.2)。
  • 与费舍尔信息(H)和奖励向量(g)及成本向量(a)的梯度向量相关的分析,更新规则在式 (6) 中推导。
  • 实现采用共轭梯度法来处理高维策略空间中的 H 的求逆。

实验结果

研究问题

  • RQ1在学习过程中如何在满足 CMDP 约束的同时可靠地最大化奖励?
  • RQ2PCPO 在每次更新上的奖励改进和约束违反的理论界限有哪些?
  • RQ3KL 发散和 L2 范数投影在收敛性与可行性方面有何比较?
  • RQ4在安全性和公平性任务上,PCPO 相较于最先进的有约束的 RL 方法在经验上有何表现?

主要发现

  • PCPO 在测试任务中使约束违规减少约 3.5 倍,奖励约提高 15% 左右。
  • 两阶段更新(先奖励改进再投影)在不需要线搜索或对约束进行超参数调整的情况下维持可行性。
  • KL 投影和 L2 投影收敛到不同的驻点,奖励稳定性与约束满足之间存在权衡。
  • PCPO 在所有任务中持续学习到满足约束的策略,在约束处理方面优于 CPO 和 PDO。
  • 增加约束违反 b+ 会恶化最坏情况的性能界限,凸显投影步的重要性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。