QUICK REVIEW

[论文解读] Why is Posterior Sampling Better than Optimism for Reinforcement Learning?

Ian Osband, Benjamin Van Roy|arXiv (Cornell University)|Jul 1, 2016

Advanced Bandit Algorithms Research参考文献 29被引用 115

一句话总结

后验采样（PSRL）在贝叶斯 regret 上与乐观 RL 相匹配甚至超越，获得了有限时域 MDP 的改进界限 ~O(H√SAT)，并在经验上优于基于 OFU 的方法如 UCRL2。

ABSTRACT

Computational results demonstrate that posterior sampling for reinforcement learning (PSRL) dramatically outperforms algorithms driven by optimism, such as UCRL2. We provide insight into the extent of this performance boost and the phenomenon that drives it. We leverage this insight to establish an $\ ilde{O}(H\\sqrt{SAT})$ Bayesian expected regret bound for PSRL in finite-horizon episodic Markov decision processes, where $H$ is the horizon, $S$ is the number of states, $A$ is the number of actions and $T$ is the time elapsed. This improves upon the best previous bound of $\ ilde{O}(H S \\sqrt{AT})$ for any reinforcement learning algorithm.

研究动机与目标

在贝叶斯框架下，激励在有限时域 MDP 中的探索-利用权衡。
在遗憾与样本效率方面，比较后验采样（PSRL）与基于乐观的 OFU 算法（如 UCRL2）。
推导 PSRL 的贝叶斯 regret 边界，改进任何 RL 算法的先前界限。
提供实证证据表明 PSRL 优于 OFU 方法，并讨论计算效率与统计效率之间的权衡。

提出的方法

将强化学习形式化为将未知 MDP 视为随机变量的贝叶斯 RL。
定义 BayesRegret 并通过随机乐观性将 PSRL 与 OFU 联系起来。
利用高斯-狄利克雷集中工具和后验采样论证，证明 PSRL 的 BayesRegret 边界为 ~O(H√SAT)。
提出一个更紧凑的边界 ~O(√(HSAT)) 的猜想，并与下界进行对比；以计算实验支持理论。
包括一个高斯-PSRL 变体以说明在某些分析下的改进和计算权衡。

实验结果

研究问题

RQ1PSRL 在贝叶斯 regret 相对于基于 OFU 的 RL 算法的表现如何？
RQ2在有限时域、表格化的 MDP 中，PSRL 是否能在贝叶斯 regret 上实现对现有 OFU 方法的改进界限？
RQ3置信集构造与采样在推动 PSRL 性能中起到的作用是什么？
RQ4实证结果是否支持 PSRL 相对于 UCRL2 及相关 OFU 方法的理论优势？

主要发现

PSRL 在贝叶斯 regret 的统计效率方面与乐观 RL 相当，且常数因子不同。
PSRL 实现了贝叶斯 regret 的边界为 Õ(H√SAT)，比先前任何 RL 算法的边界 Õ(HS√AT) 有所改进。
实证结果表明 PSRL 在有限时域 MDP 中显著优于基于 OFU 的方法（如 UCRL2）。
论文认为仅用 OFU 实现类似的统计效率在计算上可能不可行，而 PSRL 仍然可行。
一种潜在的改进猜想认为在某些分析下可能实现更紧的边界 Õ(√(HSAT))。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。