[论文解读] Breaking the Sample Size Barrier in Model-Based Reinforcement Learning with a Generative Model
该论文通过引入两种极小化极大最优算法——扰动型与保守型模型强化学习规划,克服了模型强化学习中长期存在的样本规模障碍,实现了折扣无限时域 MDP 的最优样本复杂度 $\frac{|\mathcal{S}||\mathcal{A}|}{1-\gamma}$(忽略对数因子),并进一步将结果扩展至使用普通模型强化学习规划器的极小化极大最优有限时域 MDP,从而首次在所有样本规模下提供了完整的极小化极大最优保证。
This paper is concerned with the sample efficiency of reinforcement learning, assuming access to a generative model (or simulator). We first consider $γ$-discounted infinite-horizon Markov decision processes (MDPs) with state space $\mathcal{S}$ and action space $\mathcal{A}$. Despite a number of prior works tackling this problem, a complete picture of the trade-offs between sample complexity and statistical accuracy is yet to be determined. In particular, all prior results suffer from a severe sample size barrier, in the sense that their claimed statistical guarantees hold only when the sample size exceeds at least $\frac{|\mathcal{S}||\mathcal{A}|}{(1-γ)^2}$. The current paper overcomes this barrier by certifying the minimax optimality of two algorithms -- a perturbed model-based algorithm and a conservative model-based algorithm -- as soon as the sample size exceeds the order of $\frac{|\mathcal{S}||\mathcal{A}|}{1-γ}$ (modulo some log factor). Moving beyond infinite-horizon MDPs, we further study time-inhomogeneous finite-horizon MDPs, and prove that a plain model-based planning algorithm suffices to achieve minimax-optimal sample complexity given any target accuracy level. To the best of our knowledge, this work delivers the first minimax-optimal guarantees that accommodate the entire range of sample sizes (beyond which finding a meaningful policy is information theoretically infeasible).
研究动机与目标
- 解决模型强化学习中长期存在的样本规模障碍,此前的保证要求样本规模超过 $\frac{|\mathcal{S}||\mathcal{A}|}{(1-\gamma)^2}$。
- 在生成模型下,为折扣无限时域 MDP 中的模型强化学习规划建立极小化极大最优样本复杂度。
- 使用普通模型强化学习规划器,将极小化极大最优性扩展至时变有限时域 MDP。
- 对所有可行样本规模下的样本复杂度与统计精度之间的基本权衡关系进行完整表征。
提出的方法
- 提出一种扰动型模型强化学习规划算法,在样本规模超过 $\frac{|\mathcal{S}||\mathcal{A}|}{1-\gamma}$(忽略对数因子)时,可证明其达到极小化极大最优性。
- 引入一种保守型模型强化学习算法,在相同样本规模条件下实现相同的极小化极大最优性。
- 利用 $(s,a)$-吸收 MDP 来解耦值函数估计中的统计依赖关系。
- 采用竞争性选择策略,以在伯恩斯坦型条件下控制策略评估中的方差。
- 应用矩阵记号与贝尔曼方程,分析无限时域与有限时域设定下值函数的动力学行为。
- 利用伸缩求和与柯西-施瓦茨不等式,界定有限时域 MDP 中值函数序列的增长。
实验结果
研究问题
- RQ1在生成模型下,模型强化学习中的样本规模障碍是否可以被突破,使得即使在次线性采样范围内也能实现极小化极大最优性?
- RQ2折扣无限时域 MDP 中模型强化学习规划的最优样本复杂度是多少,且能否在可证明的保证下实现?
- RQ3普通模型强化学习规划器是否足以在有限时域 MDP 中实现极小化极大最优性,若可以,其适用条件是什么?
- RQ4能否设计出在所有样本规模范围(从次线性到超线性)内均保持极小化极大最优性的算法,且不损失统计精度?
- RQ5值函数估计中的统计依赖关系如何影响样本复杂度,能否被有效解耦?
主要发现
- 扰动型模型强化学习算法在样本复杂度 $\widetilde{O}\left(\frac{|\mathcal{S}||\mathcal{A}|}{1-\gamma}\right)$ 下实现极小化极大最优性,突破了此前 $\frac{1}{(1-\gamma)^2}$ 的障碍。
- 保守型模型强化学习算法在相同样本复杂度下也实现极小化极大最优性,证实了不同算法设计下的鲁棒性。
- 对于有限时域 MDP,普通模型强化学习规划器在样本复杂度 $\widetilde{O}\left(\frac{|\mathcal{S}||\mathcal{A}|H^2}{N}\right)$ 下实现极小化极大最优性,其中 $N$ 为每对状态-动作的样本数。
- 分析表明,无限时域 MDP 的极小化极大最优样本复杂度为 $\widetilde{O}\left(\frac{|\mathcal{S}||\mathcal{A}|}{1-\gamma}\right)$,与信息论下界一致。
- 本文首次提供了在所有可行样本规模范围内(包括次线性区间)均有效的极小化极大最优保证。
- 值函数序列的增长被界定为 $\max_j \|\bm{V}_j^{(l)}\|_\infty \leq (\sqrt{3H})^l H$,确保在所提框架下可在有限步内收敛。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。