QUICK REVIEW
[论文解读] The Sample-Complexity of General Reinforcement Learning
Tor Lattimore, Marcus Hütter|arXiv (Cornell University)|Aug 22, 2013
Reinforcement Learning in Robotics参考文献 19被引用 33
一句话总结
本文提出了最大探索强化学习(MERL),一种适用于有限或紧致类任意环境的一般强化学习新算法。它建立了近似最优的样本复杂度界 $\tilde{O}\left(\frac{N}{\epsilon^2(1-\gamma)^3}\log^2\frac{N}{\delta\epsilon(1-\gamma)}\right)$,该界在对数因子范围内是紧致的,并表明对于非紧致环境类,有限样本复杂度界是不可能实现的。
ABSTRACT
We present a new algorithm for general reinforcement learning where the true environment is known to belong to a finite class of N arbitrary models. The algorithm is shown to be near-optimal for all but O(N log^2 N) time-steps with high probability. Infinite classes are also considered where we show that compactness is a key criterion for determining the existence of uniform sample-complexity bounds. A matching lower bound is given for the finite case.
研究动机与目标
- 开发一种强化学习算法,使其在包括非马尔可夫和非因子化模型在内的各类一般环境中实现近似最优的样本复杂度。
- 为已知真实环境属于大小为 $N$ 的有限模型集合的任意环境类,建立样本复杂度的理论界。
- 将分析扩展至无限但紧致的环境类,基于值函数差异使用覆盖论方法。
- 识别在何种条件下有限样本复杂度界不可能实现,特别是针对非紧致类。
- 提供一个匹配的下界,表明在一般情况下,上界无法在对数因子外进一步改进。
提出的方法
- 提出 MERL,一种通过基于置信区间的选择策略来最大化关于真实环境的信息增益的强化学习算法。
- 采用有限horizon值函数近似,并使用鞅集中不等式在环境模型上构建置信区间。
- 对于紧致类使用基于覆盖的方法,将界中的 $N$ 替换为环境类的最小 $\epsilon$-覆盖的大小。
- 在环境类上应用一致收敛性论证,利用所有策略和历史记录下值函数差异所诱导的拓扑结构。
- 通过在置信度水平上使用剥皮法,并对类中所有环境使用并集界,推导出样本复杂度界。
- 通过基于 $N$ 个四状态的类似 bandit 的 MDP 构造反例,建立下界,表明上界在对数因子范围内是紧致的。
实验结果
研究问题
- RQ1当真实环境属于大小为 $N$ 的 $N$ 个任意模型的有限类时,强化学习的最优样本复杂度是什么?
- RQ2是否可以在无限但紧致的环境类中实现有限样本复杂度界,若可以,其条件是什么?
- RQ3对于有限类,所提出的样本复杂度界在一般情况下是否无法进一步改进,仅在对数因子范围内?
- RQ4当环境类为非紧致时,样本复杂度界的本质限制是什么?
- RQ5MERL 的样本复杂度与在有限 MDP 或 bandit 等结构化设置中已知的界相比如何?
主要发现
- MERL 在 $N$ 个环境的有限类中实现了 $\tilde{O}\left(\frac{N}{\epsilon^2(1-\gamma)^3}\log^2\frac{N}{\delta\epsilon(1-\gamma)}\right)$ 的样本复杂度,该界在对数因子范围内是近似最优的。
- 对于紧致环境类,样本复杂度取决于最小 $\epsilon$-覆盖的大小,其函数形式与有限情况相同,但 $N$ 被覆盖大小所取代。
- 建立了匹配的下界:在最坏情况下,任何算法都无法实现优于 $\Omega\left(\frac{N}{\epsilon^2(1-\gamma)^3}\log\frac{1}{\delta}\right)$ 的样本复杂度,从而确认了上界在对数因子范围内的紧致性。
- 对于非紧致环境类,如所有可计算环境的集合或所有环境的完整类,不存在有限样本复杂度界。
- 用于证明下界的反例是一个包含四状态 MDP 的类,其具有 $N$ 个动作,每个环境使一个动作成为最优,且该界与已知的 bandit 下界一致。
- 分析表明,MERL 在一般情况下几乎无法进一步改进,尽管在某些病态环境中(如最优行为需要进入陷阱)可能表现不佳,这突显了样本复杂度准则本身的局限性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。