[论文解读] Convergent Policy Optimization for Safe Reinforcement Learning
本文提出了一种用于安全强化学习的收敛策略优化算法,采用非线性函数逼近,通过策略梯度估计器对非凸目标函数和约束函数构建局部二次近似。该方法证明了可收敛至原始非凸问题的驻点,并在LQR和多智能体基准测试中展现出优于拉格朗日方法的样本效率和稳定性。
We study the safe reinforcement learning problem with nonlinear function approximation, where policy optimization is formulated as a constrained optimization problem with both the objective and the constraint being nonconvex functions. For such a problem, we construct a sequence of surrogate convex constrained optimization problems by replacing the nonconvex functions locally with convex quadratic functions obtained from policy gradient estimators. We prove that the solutions to these surrogate problems converge to a stationary point of the original nonconvex problem. Furthermore, to extend our theoretical results, we apply our algorithm to examples of optimal control and multi-agent reinforcement learning with safety constraints.
研究动机与目标
- 解决大规模设置下具有非线性函数逼近的安全强化学习问题,其中目标函数和安全约束均为非凸。
- 克服拉格朗日方法的局限性,包括由于非凸-凹鞍点问题导致的计算不可行性和不稳定性。
- 开发一种策略优化算法,保证收敛至原始非凸约束问题的驻点。
- 将理论收敛保证扩展至实际的高维强化学习问题,如最优控制和多智能体系统。
提出的方法
- 基于策略梯度估计器,利用一阶泰勒展开构建非凸目标函数和约束函数的局部二次近似函数。
- 在每次迭代中求解由这些二次近似构成的凸子问题,以更新策略参数。
- 采用自适应学习率 ηₖ = (2/3)k⁻³ᐟ⁴ 和 ρₖ = (2/3)k⁻²ᐟ³,以确保稳定性和收敛性。
- 将该算法应用于约束型LQR和多智能体MDP,当无法获得闭式解时,使用蒙特卡洛采样计算期望。
- 采用类似信赖域的更新机制,防止策略优化过程中的不稳定性。
- 理论分析表明,策略序列以几乎必然的方式收敛至原始非凸问题的驻点。
实验结果
研究问题
- RQ1能否设计一种策略优化算法,收敛至具有非线性函数逼近的非凸约束强化学习问题的驻点?
- RQ2当目标函数和约束均为非凸时,如何稳定并加速安全强化学习中的策略优化?
- RQ3用局部二次近似替代非凸函数,是否能导出一个可证明收敛的约束强化学习算法?
- RQ4与基于拉格朗日的方法相比,该方法在收敛速度和稳定性方面表现如何?
- RQ5该算法能否扩展至具有安全约束的复杂高维问题,如LQR和多智能体MDP?
主要发现
- 所提算法几乎必然收敛至原始非凸约束优化问题的驻点,提供了强有力的理论保证。
- 在LQR实验中,该方法仅通过2001 ± 1172次策略更新,即达到最小目标值30.689 ± 0.114,显著少于拉格朗日方法所需的7492 ± 1780次更新。
- 对于近似最小值(误差在0.02%以内),该方法仅需604.3 ± 722.4次迭代,而拉格朗日方法需5464 ± 2116次迭代。
- 在LQR实验中,该算法在约100次迭代内成功实现从不可行初始策略到可行且最优解的过渡。
- 通过采用保守的学习率,该方法有效防止LQR系统动力学中的特征值漂移,维持系统稳定性。
- 该算法可扩展至约束型并行MDP和多智能体MDP,如附录所示。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。