QUICK REVIEW

[论文解读] Reward Constrained Policy Optimization

Chen Tessler, Daniel J. Mankowitz|arXiv (Cornell University)|May 28, 2018

Reinforcement Learning in Robotics参考文献 29被引用 235

一句话总结

RCPO 引入了多时间尺度的受限策略优化，使用折扣惩罚信号将策略引导走向可行性，并具有理论收敛保证，且在经验表现上优于标准方法。

ABSTRACT

Solving tasks in Reinforcement Learning is no easy feat. As the goal of the agent is to maximize the accumulated reward, it often learns to exploit loopholes and misspecifications in the reward signal resulting in unwanted behavior. While constraints may solve this issue, there is no closed form solution for general constraints. In this work we present a novel multi-timescale approach for constrained policy optimization, called `Reward Constrained Policy Optimization' (RCPO), which uses an alternative penalty signal to guide the policy towards a constraint satisfying one. We prove the convergence of our approach and provide empirical evidence of its ability to train constraint satisfying policies.

研究动机与目标

激励受限强化学习，防止对奖励的异常利用并确保约束得到满足。
提出一种基于惩罚的方法，将约束整合到奖励信号中，而无需事先调优惩罚系数。
在温和假设下建立 RCPO 的收敛性保证。
在网格世界和 Mujoco 机器人领域展示 RCPO 的经验优势。
将 RCPO 与奖励塑形和传统受限优化基线进行比较。

提出的方法

将受限马尔可夫决策过程(CMDP) 建模，并应用拉格朗日松弛以实现两时间尺度更新：快速策略参数 θ 和慢速惩罚项 λ。
通过 Cγ 引入折扣引导惩罚并定义带惩罚的奖励 r̂(λ, s, a) = r(s,a) − λ c(s,a)。
通过带对数似然技巧的策略梯度和基于TD的评论者，使用带惩罚值 V̂π(λ, s) 来估计梯度。
运行一个三时间尺度的 RCPO：快速 actor-critic 更新、中间的策略优化，以及慢速 λ 更新以使 J_Cπ ≤ α。
在将引导惩罚与实际约束相关的假设下，证明几乎必然收敛到一个可行的局部极小点（定理 2）。
给出一个 RCPO 算法模板（算法 1）和一个 RCPO 优势演员-评论家变体（附录 A）。

实验结果

研究问题

RQ1在 CMDP 中，是否可以在不手动调参惩罚系数的情况下，采用基于惩罚的、以奖励引导的方法来满足广义约束？
RQ2RCPO 在实际中是否收敛到可满足约束的策略，且样本效率如何？
RQ3在离散（网格世界）和连续（Mujoco）领域，RCPO 与奖励塑形和传统约束方法的表现对比如何？
RQ4使用折扣引导惩罚对受限强化学习的稳定性与收敛性有何影响？
RQ5RCPO 是否能够在实际中同时处理折扣和均值约束？

主要发现

领域	力矩 (λ=0)	奖励 (λ=0)	力矩 (λ=0.00001)	奖励 (λ=0.00001)	力矩 (λ=0.1)	奖励 (λ=0.1)	力矩 (λ=100)	奖励 (λ=100)	RCPO 力矩	RCPO 奖励
Swimmer-v2	30.4%	94.4	37.4%	65.1	32.8%	16.5	2.4%	11.7	24%	72.7
Walker2d-v2	?	3364.1	28.4%	3198.9	13.6%	823.5	17.8%	266.1	25.2%	591.6
Hopper-v2	31.5%	2610.7	31.4%	1768.2	15.7%	865.9	14.3%	329.4	26%	1138.5
Humanoid-v2	28.6%	617.1	28.1%	617.1	28.5%	1151.8	30.5%	119.4	24.3%	606.1
HalfCheetah-v2	37.8%	2989.5	40.8%	2462.3	13.87%	-0.4	13.9%	-2.4	26.7%	1547.1
Ant-v2	36.7%	1313.1	35.9%	1233.5	16.6%	1012.2	16.7%	957.2	15.2%	1031.5

在温和假设下，RCPO几乎必然收敛到一个可满足约束的固定点（定理 2）。
在实验中，RCPO 在网格世界的火星探测车域中比标准受限优化基线更快收敛、方差更低，且能达到满足约束的策略。
在 Mujoco 机器人任务中，RCPO 找到可行（或近似可行）的力矩约束策略，通常优于固定 λ 的奖励塑形方法，在多个环境（Swimmer、Walker2d、Hopper、Humanoid、HalfCheetah、Ant）上表现出色。
常数惩罚方法（奖励塑形）需要领域特定的调参，且在训练过程中可能导致次优或不稳定的策略，而 RCPO 能自适应 λ 以平衡奖励和约束满足。
RCPO 展示了更好的样本效率和稳定性；它避免了手动调节惩罚系数的需求，并处理超出递归 Bellman 方程可满足的广义约束。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。