Skip to main content
QUICK REVIEW

[论文解读] Randomized Linear Programming Solves the Discounted Markov Decision Problem In Nearly-Linear (Sometimes Sublinear) Running Time

Mengdi Wang|arXiv (Cornell University)|Apr 6, 2017
Reinforcement Learning in Robotics参考文献 26被引用 20
一句话总结

该论文提出了一种随机化线性规划算法,通过利用值-策略对偶性、自适应采样和二叉树数据结构,实现了近乎线性时间求解折扣马尔可夫决策过程(DMDP)。该算法在最坏情况下以近乎线性时间复杂度获得 $\epsilon$-最优策略,当MDP具有遍历性和结构化特性时,运行时间可进一步降低至亚线性,为随机动态规划建立了新的复杂度基准。

ABSTRACT

We propose a novel randomized linear programming algorithm for approximating the optimal policy of the discounted Markov decision problem. By leveraging the value-policy duality and binary-tree data structures, the algorithm adaptively samples state-action-state transitions and makes exponentiated primal-dual updates. We show that it finds an $ε$-optimal policy using nearly-linear run time in the worst case. When the Markov decision process is ergodic and specified in some special data formats, the algorithm finds an $ε$-optimal policy using run time linear in the total number of state-action pairs, which is sublinear in the input size. These results provide a new venue and complexity benchmarks for solving stochastic dynamic programs.

研究动机与目标

  • 开发一种随机化算法,以改进的时间复杂度近似求解折扣马尔可夫决策过程(DMDP)的最优策略。
  • 通过以精确最优性为代价换取计算效率,降低对状态空间大小 $|\mathcal{S}|$ 和动作空间大小 $|\mathcal{A}|$ 的依赖。
  • 通过在特定结构化情形下实现近乎线性或亚线性运行时间,为求解随机动态规划建立新的复杂度基准。
  • 利用值-策略对偶性及通过指数更新实现的信息投影,以实现高效的策略学习。

提出的方法

  • 利用值-策略对偶性,结合特殊构造的约束和权重向量,将DMDP形式化为随机对偶问题。
  • 基于当前随机策略实施自适应动作采样,以减少计算开销。
  • 采用指数原始-对偶更新,并通过信息投影到约束集以保持策略可行性并促进收敛。
  • 利用二叉树数据结构模拟状态转移并在每步更新中实现 $\tilde{\mathcal{O}}(1)$ 时间复杂度的策略更新。
  • 引入一个李雅普诺夫函数 $\mathcal{E}^t$,结合KL散度与值函数误差,用于分析收敛性。
  • 推导出一个递归期望界(公式14),表明当对偶间隙 $\mathcal{G}^t$ 较大时,$\mathcal{E}^{t+1}$ 在期望上递减。

实验结果

研究问题

  • RQ1能否设计一种随机化算法,在保持 $\epsilon$-最优性的同时,实现求解折扣MDP的近乎线性时间复杂度?
  • RQ2在何种结构条件下(如遍历性、数据格式)可使算法在输入规模上实现亚线性运行时间?
  • RQ3自适应采样与二叉树数据结构如何在策略更新步骤中降低时间复杂度?
  • RQ4所提出的原始-对偶方法在对偶间隙 $\mathcal{G}^t$ 方面的理论收敛速率如何?
  • RQ5基于信息投影的值-策略对偶性公式能否实现稳定且高效的策略更新?

主要发现

  • 该算法在最坏情况下以近乎线性时间复杂度 $\tilde{\mathcal{O}}(|\mathcal{S}|^2|\mathcal{A}|)$ 找到 $\epsilon$-最优策略,隐藏了多对数因子。
  • 当MDP具有遍历性且以特定数据格式表示时,运行时间变为状态-动作对总数的线性函数,即在输入规模 $\mathcal{O}(|\mathcal{S}|^2|\mathcal{A}|)$ 下为亚线性。
  • 期望对偶间隙 $\mathcal{G}^t$ 以 $\mathcal{O}\left(\frac{1}{\sqrt{T}}\right)$ 的速率衰减,确保收敛至 $\epsilon$-最优策略。
  • 当步长 $\beta = (1-\gamma)\sqrt{\frac{\log|\mathcal{S}||\mathcal{A}|+1}{2|\mathcal{S}||\mathcal{A}|T}}$ 时,算法可实现收敛与稳定性的平衡。
  • 李雅普诺夫函数 $\mathcal{E}^t$ 确保其在期望上单调递减,且满足 $\mathcal{E}^1 \leq \log(|\mathcal{S}||\mathcal{A}|) + 1$,从而支持紧致的收敛界。
  • 二叉树的使用使得策略更新时间复杂度达到 $\tilde{\mathcal{O}}(1)$,使该算法可扩展至大规模状态-动作空间。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。