Skip to main content
QUICK REVIEW

[论文解读] A Theory of Regularized Markov Decision Processes

Matthieu Geist, Bruno Scherrer|arXiv (Cornell University)|Jan 31, 2019
Adversarial Robustness in Machine Learning被引用 85
一句话总结

本文在正则化贝尔曼算子和勒让德-富费尔变换的基础上,提出了一个通用的正则化MDP理论,将各种正则化DP/MDP算法在镜像下降与Bregman散度的单一框架下统一并分析。

ABSTRACT

Many recent successful (deep) reinforcement learning algorithms make use of regularization, generally based on entropy or Kullback-Leibler divergence. We propose a general theory of regularized Markov Decision Processes that generalizes these approaches in two directions: we consider a larger class of regularizers, and we consider the general modified policy iteration approach, encompassing both policy iteration and value iteration. The core building blocks of this theory are a notion of regularized Bellman operator and the Legendre-Fenchel transform, a classical tool of convex optimization. This approach allows for error propagation analyses of general algorithmic schemes of which (possibly variants of) classical algorithms such as Trust Region Policy Optimization, Soft Q-learning, Stochastic Actor Critic or Dynamic Policy Programming are special cases. This also draws connections to proximal convex optimization, especially to Mirror Descent.

研究动机与目标

  • 引入一个形式化的正则化贝尔曼评估算子及其性质
  • 基于勒让德-富费尔的正则化最优性算子和贪婪策略的开发
  • 分析正则化(近似)动态规划方案的误差传播
  • 将正则化MDP与凸优化和镜像下降关联起来
  • 展示现有算法如何在该统一框架下成为特例

提出的方法

  • 定义对策略具有强凸正则化项的正则化贝尔曼算子
  • 使用勒让-弗变换得到正则化最大化算子和软贪婪策略
  • 将正则化ADP嵌入正则化修改策略迭代(MPI)框架并分析收敛性
  • 为正则化的Q函数引入蒙特卡罗或时序差分风格的实际实现
  • 将其与并恢复实际算法如 SAC、TRPO、DPP 和 MPO 作为特例相关联
  • 扩展为镜像下降解释以及带Bregman散度的两种MD-MPI方案

实验结果

研究问题

  • RQ1一般正则化如何影响MDP中的不动点和最优策略?
  • RQ2统一的算子框架能否为正则化DP方案提供收缩性和误差传播结果?
  • RQ3已知算法如何适配到正则化MPI/镜像下降的视角?
  • RQ4在正则化与非正则化的价值函数和策略之间有哪些理论保证?

主要发现

  • 正则化贝尔曼算子保持与经典算子类似的收缩性和单调性性质
  • 正则化的最优价值函数是正则化最优性算子的固定点,并产生唯一的最优正则化策略
  • 正则化界将正则化与非正则化价值函数联系起来,显示出受控的偏差
  • 对 reg MPI 的误差传播界为将 AMPI 结果扩展到正则化设置
  • 该框架在统一理论中作为特例恢复并解释了若干前沿算法
  • 引入 Bregman 发散导致镜像下降解释并连接到现有算法如 TRPO 和 MPO

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。