QUICK REVIEW

[论文解读] A Theory of Regularized Markov Decision Processes

Matthieu Geist, Bruno Scherrer|arXiv (Cornell University)|Jan 31, 2019

Adversarial Robustness in Machine Learning被引用 85

一句话总结

本文在正则化贝尔曼算子和勒让德-富费尔变换的基础上，提出了一个通用的正则化MDP理论，将各种正则化DP/MDP算法在镜像下降与Bregman散度的单一框架下统一并分析。

ABSTRACT

Many recent successful (deep) reinforcement learning algorithms make use of regularization, generally based on entropy or Kullback-Leibler divergence. We propose a general theory of regularized Markov Decision Processes that generalizes these approaches in two directions: we consider a larger class of regularizers, and we consider the general modified policy iteration approach, encompassing both policy iteration and value iteration. The core building blocks of this theory are a notion of regularized Bellman operator and the Legendre-Fenchel transform, a classical tool of convex optimization. This approach allows for error propagation analyses of general algorithmic schemes of which (possibly variants of) classical algorithms such as Trust Region Policy Optimization, Soft Q-learning, Stochastic Actor Critic or Dynamic Policy Programming are special cases. This also draws connections to proximal convex optimization, especially to Mirror Descent.

研究动机与目标

引入一个形式化的正则化贝尔曼评估算子及其性质
基于勒让德-富费尔的正则化最优性算子和贪婪策略的开发
分析正则化（近似）动态规划方案的误差传播
将正则化MDP与凸优化和镜像下降关联起来
展示现有算法如何在该统一框架下成为特例

提出的方法

定义对策略具有强凸正则化项的正则化贝尔曼算子
使用勒让-弗变换得到正则化最大化算子和软贪婪策略
将正则化ADP嵌入正则化修改策略迭代（MPI）框架并分析收敛性
为正则化的Q函数引入蒙特卡罗或时序差分风格的实际实现
将其与并恢复实际算法如 SAC、TRPO、DPP 和 MPO 作为特例相关联
扩展为镜像下降解释以及带Bregman散度的两种MD-MPI方案

实验结果

研究问题

RQ1一般正则化如何影响MDP中的不动点和最优策略？
RQ2统一的算子框架能否为正则化DP方案提供收缩性和误差传播结果？
RQ3已知算法如何适配到正则化MPI/镜像下降的视角？
RQ4在正则化与非正则化的价值函数和策略之间有哪些理论保证？

主要发现

正则化贝尔曼算子保持与经典算子类似的收缩性和单调性性质
正则化的最优价值函数是正则化最优性算子的固定点，并产生唯一的最优正则化策略
正则化界将正则化与非正则化价值函数联系起来，显示出受控的偏差
对 reg MPI 的误差传播界为将 AMPI 结果扩展到正则化设置
该框架在统一理论中作为特例恢复并解释了若干前沿算法
引入 Bregman 发散导致镜像下降解释并连接到现有算法如 TRPO 和 MPO

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。