[论文解读] Minimax Regret Bounds for Reinforcement Learning
本文提出 UCBVI(基于 Bernstein 的探索奖金)用于有限时域的 MDP,获得接近最优的 minimax 遗憾界,改进了先前的尺度并在对数因子范围内与下界相匹配,适用于大 T。
We consider the problem of provably optimal exploration in reinforcement learning for finite horizon MDPs. We show that an optimistic modification to value iteration achieves a regret bound of $ ilde{O}( \sqrt{HSAT} + H^2S^2A+H\sqrt{T})$ where $H$ is the time horizon, $S$ the number of states, $A$ the number of actions and $T$ the number of time-steps. This result improves over the best previous known bound $ ilde{O}(HS \sqrt{AT})$ achieved by the UCRL2 algorithm of Jaksch et al., 2010. The key significance of our new results is that when $T\geq H^3S^3A$ and $SA\geq H$, it leads to a regret of $ ilde{O}(\sqrt{HSAT})$ that matches the established lower bound of $Ω(\sqrt{HSAT})$ up to a logarithmic factor. Our analysis contains two key insights. We use careful application of concentration inequalities to the optimal value function as a whole, rather than to the transitions probabilities (to improve scaling in $S$), and we define Bernstein-based "exploration bonuses" that use the empirical variance of the estimated values at the next states (to improve scaling in $H$).
研究动机与目标
- 说明在有限时域 MDP 中需要可证明的最优探索的动机。
- 开发一个乐观、基于模型的强化学习算法,具有严格的遗憾保证。
- 在遗憾界中改善对状态维度和时域的依赖,与先前工作相比。
- 展示基于 Bernstein 的探索奖金在大 T 下实现接近最优的遗憾。
提出的方法
- 提出 upper confidence bound value iteration (UCBVI),使得到的值函数在高概率意义上成为 V* 的乐观上界。
- 两种奖金设计:bonus_1 使用 Chernoff-Hoeffding 界,bonus_2 使用基于下一状态值的经验方差的 Bernstein-Freedman 风格奖金。
- 通过对最优值函数应用收敛不等式以及使用递归的 Bellman 类方差总定律来界定方差和,来分析遗憾。
- 通过 Bernstein 不等式和鞅的集中性来界定估计误差和探索奖金,从而降低对 S 与 H 的依赖。
- 表明计算可行性,每回合的开销与求解已知 MDP 的成本相近,并讨论可扩展实现的思路。
实验结果
研究问题
- RQ1在不确定性面前的乐观是否能在有限时域 MDP 中实现可证明的最优探索并获得紧致的遗憾界?
- RQ2一种将关注点放在值函数而非转移概率的乐观、基于模型的方法能达到的紧凑遗憾界是多少?
- RQ3基于 Bernstein 的探索奖金如何影响遗憾界对 horizon H 和状态空间大小 S 的依赖?
- RQ4是否有可能在有限时域 MDP 中,当总步数 T 较大时达到 minimax 下界?
主要发现
- UCBVI-CH 通过一个高概率上界的形式实现了遗憾界,其对 S 的依赖提升为 sqrt(S),并获得一个随 H^{3/2} 和 S^2 项的界。
- UCBVI-BF,使用 Bernstein 基奖金,在大-T 情况下的遗憾界为 HSAT^{1/2},在 T 大且 SA ≥ H 时,与 minimax 下界仅在对数因子下相符。
- 在 T≥ H^3 S^3 A 且 SA ≥ H 的条件下,大 T 时界为 ten{O}(√(HSAT))。
- 两个关键技术要点是对最优值函数的集中性分析以及基于下一状态值的经验方差的探索奖金,从而将对 H 的依赖从 H 提升到 √H。
- 两种算法在计算上是可行的,每回合成本与求解一个已知 MDP 的成本相当。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。