Skip to main content
QUICK REVIEW

[论文解读] Non-Asymptotic Gap-Dependent Regret Bounds for Tabular MDPs

Max Simchowitz, Kevin Jamieson|arXiv (Cornell University)|May 9, 2019
Advanced Bandit Algorithms Research参考文献 15被引用 32
一句话总结

证明了乐观的、基于模型的算法在分段表格 MDPs 中实现带缝隙依赖的非渐近对数后悔界限,通过一种新颖的裁剪式后悔分解在 log(T) 与 minimax sqrt(HSAT) 速率之间实现插值。

ABSTRACT

This paper establishes that optimistic algorithms attain gap-dependent and non-asymptotic logarithmic regret for episodic MDPs. In contrast to prior work, our bounds do not suffer a dependence on diameter-like quantities or ergodicity, and smoothly interpolate between the gap dependent logarithmic-regret, and the $\widetilde{\mathcal{O}}(\sqrt{HSAT})$-minimax rate. The key technique in our analysis is a novel "clipped" regret decomposition which applies to a broad family of recent optimistic algorithms for episodic MDPs.

研究动机与目标

  • 动机并量化通过亚优越性缝隙来体现的实例结构如何在分段表格 MDP 中带来更好的后悔界限。
  • 开发并分析一个乐观算法——StrongEuler——实现带缝隙依赖的非渐近对数后悔。
  • 提供一种分解技术(裁剪后悔),可扩展到广泛的乐观算法类。
  • 展示在带缝隙依赖的 log(T) 后悔与 minimax sqrt(HSAT T) 后悔之间的插值,且不依赖直径等特征。

提出的方法

  • 将 EULER 的一个小变体定名为 StrongEuler,并证明高概率后悔界限为 C_M log(1/δ)。
  • 引入新颖的裁剪后悔分解(命题 3.1),通过裁剪的乐观盈余来界定后悔。
  • 定义亚优越性缝隙 gap_h(x,a) 与 gap_min,并分析它们对后悔的影响(推论 2.1,定理 2.4)。
  • 用依赖于逆缝隙、时间步长 H、状态-行动计数和与问题相关的常数的项来界定后悔,避免直径/遍历性测度。
  • 证明该分析可扩展到超出 StrongEuler 的更广泛乐观算法类。
  • 识别问题设置中的无害情形,在其中的 horizon 依赖性可以被削弱(情境赌博或 G-有界奖励)。

实验结果

研究问题

  • RQ1乐观的、基于模型的算法能否在分段表格 MDP 中获得带缝隙依赖的非渐近后悔界限?
  • RQ2在不依赖直径或遍历性的前提下,后悔如何随亚优越性缝隙、时 horizon、状态数和动作数的变化而放大?
  • RQ3裁剪后悔分解是否能为 StrongEuler 和相关算法提供更尖锐、实例相关的 log(T) 后悔界限?
  • RQ4在不同问题实例和 T 上,后悔如何在 log(T) 与 minimax sqrt(HST A) 区间内插?
  • RQ5在该设定下,哪些下界显示出乐观算法在带缝隙依赖性方面改进的极限?

主要发现

  • StrongEuler 在所有 T 上实现高概率后悔界限 C_M log(1/δ),其中 C_M 取决于缝隙和 H,且一个随 H 的多项式尺度的初始 burn-in 项。
  • 推论 2.1 给出一个后悔界限,包含对亚最优状态-动作对的和以及对最优对的项,还有一个带对数因子的 H^4SA(S∨H) 因子。
  • 该后悔界限在 log(T) 的带缝隙依赖性能与 minimax √(HSAT) 速率之间插值(定理 2.4)。
  • 一个新颖的裁剪后悔分解(命题 3.1)使得对广泛的乐观算法族可以进行带缝隙的非渐近分析。
  • 存在下界表明逆缝隙和项在一般情况下不可改进,以及一个实例显示对 gap_min 的不可避免依赖,凸显乐观方法的固有极限。
  • 该分析可扩展至问题实例更为友好的场景,在这些场景中 horizon 依赖性可以被收窄(情境带宽赌博或 G-有界奖励)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。