[论文解读] A Theory of Regularized Markov Decision Processes
本文在正则化贝尔曼算子和勒让德-富费尔变换的基础上,提出了一个通用的正则化MDP理论,将各种正则化DP/MDP算法在镜像下降与Bregman散度的单一框架下统一并分析。
Many recent successful (deep) reinforcement learning algorithms make use of regularization, generally based on entropy or Kullback-Leibler divergence. We propose a general theory of regularized Markov Decision Processes that generalizes these approaches in two directions: we consider a larger class of regularizers, and we consider the general modified policy iteration approach, encompassing both policy iteration and value iteration. The core building blocks of this theory are a notion of regularized Bellman operator and the Legendre-Fenchel transform, a classical tool of convex optimization. This approach allows for error propagation analyses of general algorithmic schemes of which (possibly variants of) classical algorithms such as Trust Region Policy Optimization, Soft Q-learning, Stochastic Actor Critic or Dynamic Policy Programming are special cases. This also draws connections to proximal convex optimization, especially to Mirror Descent.
研究动机与目标
- 引入一个形式化的正则化贝尔曼评估算子及其性质
- 基于勒让德-富费尔的正则化最优性算子和贪婪策略的开发
- 分析正则化(近似)动态规划方案的误差传播
- 将正则化MDP与凸优化和镜像下降关联起来
- 展示现有算法如何在该统一框架下成为特例
提出的方法
- 定义对策略具有强凸正则化项的正则化贝尔曼算子
- 使用勒让-弗变换得到正则化最大化算子和软贪婪策略
- 将正则化ADP嵌入正则化修改策略迭代(MPI)框架并分析收敛性
- 为正则化的Q函数引入蒙特卡罗或时序差分风格的实际实现
- 将其与并恢复实际算法如 SAC、TRPO、DPP 和 MPO 作为特例相关联
- 扩展为镜像下降解释以及带Bregman散度的两种MD-MPI方案
实验结果
研究问题
- RQ1一般正则化如何影响MDP中的不动点和最优策略?
- RQ2统一的算子框架能否为正则化DP方案提供收缩性和误差传播结果?
- RQ3已知算法如何适配到正则化MPI/镜像下降的视角?
- RQ4在正则化与非正则化的价值函数和策略之间有哪些理论保证?
主要发现
- 正则化贝尔曼算子保持与经典算子类似的收缩性和单调性性质
- 正则化的最优价值函数是正则化最优性算子的固定点,并产生唯一的最优正则化策略
- 正则化界将正则化与非正则化价值函数联系起来,显示出受控的偏差
- 对 reg MPI 的误差传播界为将 AMPI 结果扩展到正则化设置
- 该框架在统一理论中作为特例恢复并解释了若干前沿算法
- 引入 Bregman 发散导致镜像下降解释并连接到现有算法如 TRPO 和 MPO
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。