Skip to main content
QUICK REVIEW

[论文解读] Stochastic approximation with cone-contractive operators: Sharp $\ell_\infty$-bounds for $Q$-learning

Martin J. Wainwright|arXiv (Cornell University)|May 15, 2019
Reinforcement Learning in Robotics参考文献 23被引用 23
一句话总结

本文通过一种新颖的锥收缩算子随机逼近框架,为折扣马尔可夫决策过程中的 $Q$-learning 推导出精确的非渐近 $ε$-界。通过利用锥诱导范数下的单调性与准收缩性,作者获得了目前已知最紧致的 $∞$-范数误差界,表明在最坏情况下,$Q$-learning 的样本复杂度按 $\frac{1}{(1-\gamma)^4\epsilon^2}$ 规模增长,揭示了其相对于最优模型基 $Q$-迭代的差距。

ABSTRACT

Motivated by the study of $Q$-learning algorithms in reinforcement learning, we study a class of stochastic approximation procedures based on operators that satisfy monotonicity and quasi-contractivity conditions with respect to an underlying cone. We prove a general sandwich relation on the iterate error at each time, and use it to derive non-asymptotic bounds on the error in terms of a cone-induced gauge norm. These results are derived within a deterministic framework, requiring no assumptions on the noise. We illustrate these general bounds in application to synchronous $Q$-learning for discounted Markov decision processes with discrete state-action spaces, in particular by deriving non-asymptotic bounds on the $\ell_\infty$-norm for a range of stepsizes. These results are the sharpest known to date, and we show via simulation that the dependence of our bounds cannot be improved in a worst-case sense. These results show that relative to a model-based $Q$-iteration, the $\ell_\infty$-based sample complexity of $Q$-learning is suboptimal in terms of the discount factor $γ$.

研究动机与目标

  • 开发一种通用框架,用于基于锥收缩算子的随机逼近算法的非渐近误差分析。
  • 将该框架具体应用于折扣马尔可夫决策过程中同步 $Q$-learning 的分析。
  • 推导出目前已知最尖锐的 $Q$-learning 的 $\ell_\infty$-范数误差非渐近界。
  • 证明 $Q$-learning 的样本复杂度在折扣因子 $\gamma$ 的依赖关系上相对于模型基 $Q$-迭代是次优的。
  • 通过在构造的“困难”问题实例上进行仿真,验证边界的紧致性。

提出的方法

  • 引入一类广义的随机逼近算法,其算子在锥诱导偏序和范数下具有单调性与准收缩性。
  • 在每一步迭代中建立一个确定性的夹逼不等式,通过锥诱导序来界定误差。
  • 通过将夹逼结果应用于特定的衰减步长调度(线性和多项式),推导出一般步长下的非渐近误差界。
  • 将一般理论特化到同步 $Q$-learning,利用上范数锥(象限锥)推导 $\ell_\infty$-范数界。
  • 利用集中与求和技术控制期望误差,依赖于指数和与积分的界。
  • 构造一个“困难”的 MDP 实例,以证明所推导的边界在一般情况下不可改进,尤其在 $\frac{1}{(1-\gamma)^5}$ 的最坏情况缩放下。

实验结果

研究问题

  • RQ1在一般步长下,同步 $Q$-learning 的最尖锐可能的非渐近 $\ell_\infty$-范数误差界是什么?
  • RQ2在折扣因子 $\gamma$ 的依赖关系上,$Q$-learning 的性能与模型基 $Q$-迭代相比如何?
  • RQ3$Q$-learning 的理论误差界是否可证明为紧致?若是,其条件为何?
  • RQ4为实现 $\ell_\infty$-范数下 $\epsilon$-精度,$Q$-learning 所需迭代次数的最优缩放是什么?
  • RQ5是否存在一个问题实例,使得 $\ell_\infty$-误差的最坏情况边界 $\frac{1}{(1-\gamma)^5}$ 实际被达到?

主要发现

  • 本文建立了目前已知最尖锐的 $Q$-learning 非渐近 $\ell_\infty$-范数误差界,多项式步长下最坏情况缩放为 $\frac{1}{(1-\gamma)^5}$。
  • 对于一个特定的“困难” MDP 实例,理论预测 $\ell_\infty$-范数下 $\epsilon$-精度需要 $\frac{1}{(1-\gamma)^4\epsilon^2}$ 次迭代,仿真结果证实该预测在经验上是紧致的。
  • $Q$-learning 的基于 $\ell_\infty$-范数的样本复杂度相对于模型基 $Q$-迭代是次优的,后者可实现 $\frac{1}{(1-\gamma)^3\epsilon^2}$ 的缩放。
  • 所推导的边界在任何统一方式下均不可改进,这一点通过在具有非平凡方差结构的构造问题实例上的仿真研究得以证明。
  • 分析表明,$Q$-learning 的收敛速率在根本上受限于折扣因子 $\gamma$,在有利情况下 $\ell_\infty$-误差按 $\frac{1}{(1-\gamma)^4\epsilon^2}$ 缩放。
  • 该框架可普遍适用于任何具有锥单调性与准收缩算子的随机逼近算法,其适用范围不仅限于 $Q$-learning,还可推广至矩阵值问题等其他场景。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。