QUICK REVIEW

[论文解读] Optimization Issues in KL-Constrained Approximate Policy Iteration

Nevena Lazić, Botao Hao|arXiv (Cornell University)|Feb 11, 2021

Advanced Bandit Algorithms Research被引用 3

一句话总结

本文研究了在近似策略迭代中KL散度正则化与约束之间的优化权衡，表明诸如TRPO之类的约束方法即使在简单的Bandit问题中也可能无法收敛，并产生线性遗憾，而正则化更新则能确保次线性遗憾并拥有更优的优化景观，尤其在Softmax策略下表现更佳。

ABSTRACT

Many reinforcement learning algorithms can be seen as versions of approximate policy iteration (API). While standard API often performs poorly, it has been shown that learning can be stabilized by regularizing each policy update by the KL-divergence to the previous policy. Popular practical algorithms such as TRPO, MPO, and VMPO replace regularization by a constraint on KL-divergence of consecutive policies, arguing that this is easier to implement and tune. In this work, we study this implementation choice in more detail. We compare the use of KL divergence as a constraint vs. as a regularizer, and point out several optimization issues with the widely-used constrained approach. We show that the constrained algorithm is not guaranteed to converge even on simple problem instances where the constrained problem can be solved exactly, and in fact incurs linear expected regret. With approximate implementation using softmax policies, we show that regularization can improve the optimization landscape of the original objective. We demonstrate these issues empirically on several bandit and RL environments.

研究动机与目标

研究KL约束策略迭代与KL正则化策略迭代在优化稳定性与收敛性方面的特性。
识别约束方法的根本缺陷，这些缺陷会导致在简单Bandit环境中出现非收敛和线性期望遗憾。
比较正则化与约束公式在Softmax策略参数化下的优化景观。
在标准强化学习环境（包括CartPole和Ball in Cup）中实证验证理论发现。
挑战一种普遍假设，即KL约束更新是理论上合理的KL正则化更新的稳定且实用的实现方式。

提出的方法

在具有噪声优势估计的多臂Bandit设置中，分析比较KL正则化与KL约束策略更新的行为。
将策略改进步骤建模为约束优化问题（如TRPO风格）和正则化优化问题（如镜像下降风格），推导各自的更新规则。
使用Softmax参数化策略分析优化景观，表明正则化能带来更平滑、更稳定的目标函数。
在CartPole和Ball in Cup环境中实现并比较多种算法——TRPO、CPO、VMPO、MDPO、Surrogate，采用一致的神经网络架构。
对CPO和MDPO使用重要性加权策略梯度估计，对VMPO和Surrogate使用全批量策略评估，以确保公平比较。
在所有阶段使用Adam优化器，固定学习率和权重初始化，并在{0.1, 1, 5, 10, 15, 20, 25}范围内调优KL超参数，为每种算法选择表现最佳的值。

实验结果

研究问题

RQ1在具有噪声优势估计的简单Bandit问题中，KL约束策略更新是否能保证收敛？
RQ2在存在噪声优势估计的情况下，TRPO类约束算法的期望遗憾行为如何？
RQ3与KL约束相比，KL正则化如何影响优化景观，尤其是在Softmax策略参数化下？
RQ4约束与正则化算法之间的实证性能差异是否可归因于优化稳定性或收敛性？
RQ5为何某些约束算法（如Surrogate）尽管使用相似组件，却无法收敛到最优策略？

主要发现

即使在所有算法均可精确实现的简单多臂Bandit问题中，约束策略更新（如TRPO）也无法保证收敛。
由于噪声优势估计反复选择次优动作，TRPO会因持续向错误方向移动而产生线性期望遗憾。
相比之下，KL正则化更新通过在迭代过程中平均噪声，使同一Bandit问题上的遗憾为次线性。
在Softmax参数化策略下，正则化目标相比约束公式能带来更优的优化景观。
实证结果表明，CPO在接近最优策略时表现出比VMPO和MDPO等正则化算法更明显的振荡和更慢的收敛速度。
Surrogate目标通过在交叉熵基础上增加平方误差损失，可能导致收敛到次优策略，可能是因为策略贪婪性降低。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。