[论文解读] A unified view of entropy-regularized Markov decision processes
本文提出一个用于熵正则化平均回报 MDP 的凸优化框架,展示了正则化 Bellman 方程与正则化平均回报目标之间的对偶性,并将 TRPO 和 MDP-E/DPP 等算法与 Mirror Descent 或 Dual Averaging 联系起来。
We propose a general framework for entropy-regularized average-reward reinforcement learning in Markov decision processes (MDPs). Our approach is based on extending the linear-programming formulation of policy optimization in MDPs to accommodate convex regularization functions. Our key result is showing that using the conditional entropy of the joint state-action distributions as regularization yields a dual optimization problem closely resembling the Bellman optimality equations. This result enables us to formalize a number of state-of-the-art entropy-regularized reinforcement learning algorithms as approximate variants of Mirror Descent or Dual Averaging, and thus to argue about the convergence properties of these methods. In particular, we show that the exact version of the TRPO algorithm of Schulman et al. (2015) actually converges to the optimal policy, while the entropy-regularized policy gradient methods of Mnih et al. (2016) may fail to converge to a fixed point. Finally, we illustrate empirically the effects of using various regularization techniques on learning performance in a simple reinforcement learning setup.
研究动机与目标
- 动机化熵正则化,以应对平均回报 MDP 中的模型不确定性和探索问题。
- 将线性规划表述扩展到凸正则化器,并推导与 Bellman 方程的对偶关系。
- 展示熵正则化强化学习算法与在线凸优化方法之间的联系。
- 提供对 TRPO 和熵正则化策略梯度的收敛性质的见解。
- 展示不同正则化技术对学习性能的实证影响。
提出的方法
- 定义带凸正则化器(相对熵和条件熵)的正则化平均回报目标。
- 推导对偶问题,并显示对偶方程类似于带正则化的 Bellman 最优性方程。
- 证明凸性,并在正则化下推导最优状态-动作分布及相应的值函数。
- 将现有算法(REPS、TRPO、DPP、Mnih 等 2016)解释为 Mirror Descent 或 Dual Averaging 的近似实例。
- 建立 TRPO 收敛到最优策略的严格收敛性,并讨论熵正则化策略梯度方法可能不收敛的情况。
实验结果
研究问题
- RQ1如何将熵正则化引入平均回报 MDP 的线性规划框架?
- RQ2使用如相对熵或条件熵等凸正则化器时会产生哪些对偶关系?
- RQ3经典 RL 算法(TRPO、DPP、A3C/ MNIST 风格方法)如何适用于 Mirror Descent 或 Dual Averaging 视角?
- RQ4在什么条件下,这些正则化方法收敛到最优策略,或可能不收敛?
- RQ5在简单 MDP 中,不同正则化器对学习性能的实证影响是什么?
主要发现
- 带条件熵的正则化目标的对偶产生带正则化的 Bellman 最优性方程。
- TRPO with the exact updates 收敛到最优策略(等价于 MDP-E 算法)。
- 熵正则化的策略梯度方法(如 A3C/Mnih 等 2016)在一般情况下可能无法收敛到固定点。
- DPP 和 TRPO 可以解释为 Mirror Descent 的近似实例,在带正则化框架下。
- 该框架强调了由于近似引入的凸性问题而导致的启发式学习算法中的潜在不一致性。
- 实证结果说明在简单 MDP 设置中,不同正则化方案如何影响学习性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。