[论文解读] First Order Constrained Optimization in Policy Space
FOCOPS 是一种一阶约束强化学习方法,通过在策略空间中求解非参数更新来在满足成本约束的同时优化回报,然后将其投影到参数化策略。
In reinforcement learning, an agent attempts to learn high-performing behaviors through interacting with the environment, such behaviors are often quantified in the form of a reward function. However some aspects of behavior-such as ones which are deemed unsafe and to be avoided-are best captured through constraints. We propose a novel approach called First Order Constrained Optimization in Policy Space (FOCOPS) which maximizes an agent's overall reward while ensuring the agent satisfies a set of cost constraints. Using data generated from the current policy, FOCOPS first finds the optimal update policy by solving a constrained optimization problem in the nonparameterized policy space. FOCOPS then projects the update policy back into the parametric policy space. Our approach has an approximate upper bound for worst-case constraint violation throughout training and is first-order in nature therefore simple to implement. We provide empirical evidence that our simple approach achieves better performance on a set of constrained robotics locomotive tasks.
研究动机与目标
- 通过带约束的马尔科夫决策过程(CMDPs)和受约束的策略优化来促进强化学习中的安全性。
- 提出一个两步方法,第一步在非参数策略空间中找到最优更新,然后将其投影到参数化策略空间。
- 在训练过程中对近似的最坏情况约束违反提供理论保证。
- 在高维连续控制任务上展示对最先进约束RL方法的经验改进。
提出的方法
- 出于简单起见,将受约束的RL建模为带单一成本约束的CMDP。
- 在第一步,在非参数化策略空间中求解带约束的优化以获得最优更新策略 π*(定理1给出近似闭式 π*(a|s) ∝ π_θk(a|s) exp((A^{π_θk}(s,a) - ν A_C^{π_θk}(s,a))/λ),其中 λ、ν 由对偶问题确定。)
- 通过最小化KL散度损失 L(θ)=E_{s∼d^{π_θk}}[D_KL(π_θ(·|s) ∥ π*(·|s))] 将 π* 投回参数化策略空间。
- 使用一阶梯度更新来最小化 L(θ);推导梯度形式(推论1)将策略KL项与成本感知的优势项结合。
- 通过类原大于对偶的规则更新 ν,以强制执行成本约束(式14),并使用接受指示符使更新保持在信任域内(式15)。
- 避免二阶费舍尔信息矩阵求逆,依赖一阶方法以简化和提高稳定性;提供一个与 CPO 和拉格朗基线方法的对比的经验性设置。
实验结果
研究问题
- RQ1如何仅使用一阶方法高效实现受约束的策略优化?
- RQ2在非参数策略空间中求解受约束更新并将其投影回去,是否在近似满足约束的情况下提高性能?
- RQ3FOCOPS 在高维连续控制任务上的经验性能和约束满足特征是什么?
- RQ4超参数如 λ 和最大 ν 如何影响性能和约束的遵守?
- RQ5在多样化的机器人任务中,FOCOPS 与 CPO 及基于拉格朗日的方法相比如何?
主要发现
| 环境 | PPO-L 奖励 | PPO-L 成本 | TRPO-L 奖励 | TRPO-L 成本 | CPO 奖励 | CPO 成本 | FOCOPS 奖励 | FOCOPS 成本 | 环境(圆环) | PPO-L 奖励 | PPO-L 成本 | TRPO-L 奖励 | TRPO-L 成本 | CPO 奖励 | CPO 成本 | FOCOPS 奖励 | FOCOPS 成本 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Ant-v3 | 1291.4 | 98.78 | 1585.7 | 107.82 | 1406.0 | 100.25 | 1830.0 | 102.75 | Ant-Circle | 637.4 | 50.4 | 416.7 | 50.4 | 390.9 | 50.0 | 965.9 | 49.9 |
| HalfCheetah-v3 | 1141.3 | 151.53 | 1621.59 | 164.93 | 1470.8 | 150.05 | 1612.2 | 152.36 | Humanoid-Circle | 1024.5 | 50.3 | 697.5 | 49.6 | 671.0 | 47.9 | 1106.1 | 49.9 |
| Hopper-v3 | 1433.8 | 81.29 | 750.3 | 87.57 | 1167.1 | 80.39 | 1953.4 | 81.84 | Humanoid-Circle | 1106.1 | 49.9 | 50.0 | ? | ? | ? | ? | ? |
| Humanoid-v3 | 471.3 | 18.89 | 4062.4 | 19.23 | 3952.7 | 15.83 | 4529.7 | 18.63 | Circle task (Humanoid) | 1104.5 | 50.0 | ? | ? | ? | ? | 1106.1 | 49.9 |
| Swimmer-v3 | 29.73 | 24.72 | 21.15 | 28.57 | 20.31 | 23.88 | 31.94 | 25.29 | Circle task (Swimmer) | ? | ? | ? | ? | ? | ? | ? | ? |
| Walker2d-v3 | 2074.4 | 81.7 | 1153.1 | 80.79 | 1040.0 | 78.12 | 2485.9 | 81.27 | ? | ? | ? | ? | ? | ? | ? | ? | ? |
- FOCOPS 在多项 MuJoCo 任务(带速度限制)的奖励更高或具有竞争力,同时保持近似的约束满足。
- 与 CPO 和拉格朗基线相比,FOCOPS 在奖励方面通常更优,同时将成本保持在约束内,而 TRPO-L 在某些任务上可能违反约束。
- 该方法实现简单,完全一阶,并对超参数选择(如 ν_max 和 λ)表现出鲁棒性。
- 泛化实验表明,FOCOPS 在大多数任务的未见种子上通常优于其他受约束方法,Hopper-v3 除外。
- 敏感性分析表明,性能对 ν_max 的敏感度不高(甚至无限大),且在一个合理值附近的 λ 能获得良好结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。