QUICK REVIEW

[论文解读] On Lower Bounds for Regret in Reinforcement Learning

Ian Osband, Benjamin Van Roy|arXiv (Cornell University)|Aug 9, 2016

Advanced Bandit Algorithms Research参考文献 4被引用 49

一句话总结

本文重新审视强化学习中遗憾的下界，表明 Bartlett 和 Tewari（2009）提出的 $Ω(D_{\text{ow}}\sqrt{SAT})$ 遗憾下界缺乏严格的证明。本文改用标准的集中不等式方法，建立了可证明的下界 $Ω(\sqrt{D_{\text{ow}}SAT})$，表明更紧致的 $D_{\text{ow}}\sqrt{SAT}$ 刻画可能无法实现，且现有上界可能已达到最优。

ABSTRACT

This is a brief technical note to clarify the state of lower bounds on regret for reinforcement learning. In particular, this paper: - Reproduces a lower bound on regret for reinforcement learning, similar to the result of Theorem 5 in the journal UCRL2 paper (Jaksch et al 2010). - Clarifies that the proposed proof of Theorem 6 in the REGAL paper (Bartlett and Tewari 2009) does not hold using the standard techniques without further work. We suggest that this result should instead be considered a conjecture as it has no rigorous proof. - Suggests that the conjectured lower bound given by (Bartlett and Tewari 2009) is incorrect and, in fact, it is possible to improve the scaling of the upper bound to match the weaker lower bounds presented in this paper. We hope that this note serves to clarify existing results in the field of reinforcement learning and provides interesting motivation for future work.

研究动机与目标

澄清当前强化学习中遗憾下界的状态，特别是 Bartlett 和 Tewari（2009）中一个猜想下界的有效性。
证明 REGAL 论文（Bartlett 和 Tewari，2009）中定理 6 的证明技术存在缺陷，且在标准分析方法下不成立。
使用标准集中不等式，为直径为 $D_{\text{ow}}$ 的 MDP 中的遗憾建立一个可证明的下界 $Ω(\sqrt{D_{\text{ow}}SAT})$。
基于原始证明草图中的重复计数问题，论证猜想的 $Ω(D_{\text{ow}}\sqrt{SAT})$ 下界可能不正确。
通过提出猜想 1：$Ω(\sqrt{D_{\text{ow}}SAT})$ 是可能的最佳下界，从而激发未来研究，暗示现有上界可能已达到紧致性。

提出的方法

使用标准集中不等式和信息论论证，重现强化学习中遗憾的下界，方法与 UCRL2 论文（Jaksch 等，2010）类似。
分析 Bartlett 和 Tewari（2009）中定理 6 的证明结构，识别出在 $O(D_{\text{ow}})$ 个时间步内对遗憾进行重复计数的错误。
以多臂赌博机的下界 $\Omega(\sqrt{AT})$ 作为基础情形，并通过引入 MDP 的直径 $D_{\text{ow}}$ 和状态-动作对数量 $S,A$ 将其推广至 MDP。
使用反例论证表明，$D_{\text{ow}}\sqrt{SAT}$ 的猜想会导致不一致的遗憾计数，即同一 regret 值在轨迹的多个时间步中被重复计算。
将分析与近期有限时域 MDP 中的 PAC 边界（Dann 和 Brunskill，2015）进行比较，后者也出现类似的 $\Theta(\sqrt{HT})$ 遗憾缩放，支持 $\sqrt{D_{\text{ow}}SAT}$ 为紧致下界。

实验结果

研究问题

RQ1Bartlett 和 Tewari（2009）提出的 $\Omega(D_{\text{ow}}\sqrt{SAT})$ 遗憾下界是否能通过标准技术严格证明？
RQ2REGAL 论文（Bartlett 和 Tewari，2009）中定理 6 的证明是否存在逻辑缺陷，特别是在遗憾随时间累积的方式上？
RQ3能否为直径为 $D_{\text{ow}}$ 的 MDP 中的遗憾建立一个可证明的下界 $\Omega(\sqrt{D_{\text{ow}}SAT})$？
RQ4$D_{\text{ow}}\sqrt{SAT}$ 在猜想的下界中是否不可改进，暗示现有上界可能已达到最优？
RQ5近期有限时域 MDP 中的 PAC 边界是否支持 $\sqrt{HT}$ 的遗憾缩放，这将与 $\sqrt{D_{\text{ow}}SAT}$ 作为最紧致下界一致？

主要发现

Bartlett 和 Tewari（2009）中定理 6 的证明在标准分析方法下不成立，原因在于在 $O(D_{\text{ow}})$ 个时间步内对遗憾进行了重复计数。
使用标准集中不等式和多臂赌博机下界作为基础，为强化学习中的遗憾建立了严谨的下界 $Ω(\sqrt{D_{\text{ow}}SAT})$。
猜想的 $Ω(D_{\text{ow}}\sqrt{SAT})$ 下界可能不正确，因为它通过在轨迹中多次重复计算同一值的不足，高估了遗憾。
分析表明，现有的遗憾上界（如 $\tilde{O}(\sqrt{DSAT})$）可能已达到最优，因为其与新证明的下界一致。
来自近期有限时域 MDP 中 PAC 分析（Dann 和 Brunskill，2015）的证据表明，$\Theta(\sqrt{HT})$ 的遗憾缩放是成立的，这与 $\sqrt{D_{\text{ow}}SAT}$ 一致，暗示 $D_{\text{ow}}\sqrt{SAT}$ 并非正确的缩放方式。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。