[论文解读] Accelerated Primal-Dual Policy Optimization for Safe Reinforcement Learning
APDO 引入在原始对偶 CMDP 框架中的一个离策略双变量调整,相对于 PDO 和 CPO,通过在固定调整时期后的一次性离策略对偶更新,提升样本效率和收敛性。
Constrained Markov Decision Process (CMDP) is a natural framework for reinforcement learning tasks with safety constraints, where agents learn a policy that maximizes the long-term reward while satisfying the constraints on the long-term cost. A canonical approach for solving CMDPs is the primal-dual method which updates parameters in primal and dual spaces in turn. Existing methods for CMDPs only use on-policy data for dual updates, which results in sample inefficiency and slow convergence. In this paper, we propose a policy search method for CMDPs called Accelerated Primal-Dual Optimization (APDO), which incorporates an off-policy trained dual variable in the dual update procedure while updating the policy in primal space with on-policy likelihood ratio gradient. Experimental results on a simulated robot locomotion task show that APDO achieves better sample efficiency and faster convergence than state-of-the-art approaches for CMDPs.
研究动机与目标
- 在长期成本约束下使用 CMDPs 推动安全强化学习。
- 开发一种在 CMDP 中更具样本效率的原始-对偶优化方法。
- 通过利用离策略数据进行对偶更新,提升受约束策略优化的收敛速度。
提出的方法
- 通过拉格朗日形式将 CMDP 表述为 L(pi, lambda) = R(pi) - sum_i lambda_i (C_i(pi) - d_i)。
- 在每次迭代中使用原始-对偶循环,对原始使用在策略梯度更新,对对偶进行对偶梯度上升。
- 引入一个离策略的一次性对偶调整 lambda_OFF,在 K_adj 次迭代后使用历史重放数据。
- 通过一个在重放缓冲区上以原始-对偶目标进行训练的离策略算法计算 lambda_OFF(补充材料中为原始-对偶 DDPG)。
- 将在策略更新中的对偶更新设为标准的对偶梯度步骤;在 K_adj 时用 lambda_OFF 替换 lambda,以实现更快的收敛。
实验结果
研究问题
- RQ1在 CMDP 中使用离策略训练的对偶变量是否能够加速收敛到最优的原始-对偶解?
- RQ2在受约束的控制任务上,APDO 相较于 PDO 和 CPO 在样本效率和约束满足方面表现如何?
- RQ3对偶调整时期 K_adj 对离策略对偶估计的性能和偏差有何影响?
主要发现
- APDO 在一个仿真安全约束的机器人行走任务中,样本效率高于先进的 CMDP 方法(PDO 和 CPO)。
- APDO 在像 CPO 那样有效地约束的同时,提供更快的奖励学习,例如在所报告的任务中大约在一半的训练时期内达到类似的奖励水平。
- 在离策略对偶调整后,对偶变量更快收敛到最优值,出现显著跃升。
- 使用离策略对偶更新利用历史数据加速对偶优化,减少对大规模在策略批次的需求。
- APDO 的改进源于离线求解近似最优的对偶变量,然后在策略上进行微调。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。