QUICK REVIEW

[论文解读] Non-Asymptotic Gap-Dependent Regret Bounds for Tabular MDPs

Max Simchowitz, Kevin Jamieson|arXiv (Cornell University)|May 9, 2019

Advanced Bandit Algorithms Research参考文献 15被引用 32

一句话总结

证明了乐观的、基于模型的算法在分段表格 MDPs 中实现带缝隙依赖的非渐近对数后悔界限，通过一种新颖的裁剪式后悔分解在 log(T) 与 minimax sqrt(HSAT) 速率之间实现插值。

ABSTRACT

This paper establishes that optimistic algorithms attain gap-dependent and non-asymptotic logarithmic regret for episodic MDPs. In contrast to prior work, our bounds do not suffer a dependence on diameter-like quantities or ergodicity, and smoothly interpolate between the gap dependent logarithmic-regret, and the $\widetilde{\mathcal{O}}(\sqrt{HSAT})$-minimax rate. The key technique in our analysis is a novel "clipped" regret decomposition which applies to a broad family of recent optimistic algorithms for episodic MDPs.

研究动机与目标

动机并量化通过亚优越性缝隙来体现的实例结构如何在分段表格 MDP 中带来更好的后悔界限。
开发并分析一个乐观算法——StrongEuler——实现带缝隙依赖的非渐近对数后悔。
提供一种分解技术（裁剪后悔），可扩展到广泛的乐观算法类。
展示在带缝隙依赖的 log(T) 后悔与 minimax sqrt(HSAT T) 后悔之间的插值，且不依赖直径等特征。

提出的方法

将 EULER 的一个小变体定名为 StrongEuler，并证明高概率后悔界限为 C_M log(1/δ)。
引入新颖的裁剪后悔分解（命题 3.1），通过裁剪的乐观盈余来界定后悔。
定义亚优越性缝隙 gap_h(x,a) 与 gap_min，并分析它们对后悔的影响（推论 2.1，定理 2.4）。
用依赖于逆缝隙、时间步长 H、状态-行动计数和与问题相关的常数的项来界定后悔，避免直径/遍历性测度。
证明该分析可扩展到超出 StrongEuler 的更广泛乐观算法类。
识别问题设置中的无害情形，在其中的 horizon 依赖性可以被削弱（情境赌博或 G-有界奖励）。

实验结果

研究问题

RQ1乐观的、基于模型的算法能否在分段表格 MDP 中获得带缝隙依赖的非渐近后悔界限？
RQ2在不依赖直径或遍历性的前提下，后悔如何随亚优越性缝隙、时 horizon、状态数和动作数的变化而放大？
RQ3裁剪后悔分解是否能为 StrongEuler 和相关算法提供更尖锐、实例相关的 log(T) 后悔界限？
RQ4在不同问题实例和 T 上，后悔如何在 log(T) 与 minimax sqrt(HST A) 区间内插？
RQ5在该设定下，哪些下界显示出乐观算法在带缝隙依赖性方面改进的极限？

主要发现

StrongEuler 在所有 T 上实现高概率后悔界限 C_M log(1/δ)，其中 C_M 取决于缝隙和 H，且一个随 H 的多项式尺度的初始 burn-in 项。
推论 2.1 给出一个后悔界限，包含对亚最优状态-动作对的和以及对最优对的项，还有一个带对数因子的 H^4SA(S∨H) 因子。
该后悔界限在 log(T) 的带缝隙依赖性能与 minimax √(HSAT) 速率之间插值（定理 2.4）。
一个新颖的裁剪后悔分解（命题 3.1）使得对广泛的乐观算法族可以进行带缝隙的非渐近分析。
存在下界表明逆缝隙和项在一般情况下不可改进，以及一个实例显示对 gap_min 的不可避免依赖，凸显乐观方法的固有极限。
该分析可扩展至问题实例更为友好的场景，在这些场景中 horizon 依赖性可以被收窄（情境带宽赌博或 G-有界奖励）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。