QUICK REVIEW

[论文解读] Model-based Reinforcement Learning and the Eluder Dimension

Ian Osband, Benjamin Van Roy|arXiv (Cornell University)|Jun 7, 2014

Advanced Bandit Algorithms Research参考文献 14被引用 43

一句话总结

本文提出了一种基于模型的强化学习框架，采用后验抽样（PSRL），其遗憾界与函数类的可忽略维数（eluder dimension）和柯尔莫哥洛夫维数（Kolmogorov dimension）成比例，而非状态和动作的基数。该工作首次在一般函数逼近设定下为基于模型的强化学习提供了统一的遗憾界，且在线性、利普希茨连续和赫尔德连续的MDP中实现了最先进（state-of-the-art）的保证。

ABSTRACT

We consider the problem of learning to optimize an unknown Markov decision process (MDP). We show that, if the MDP can be parameterized within some known function class, we can obtain regret bounds that scale with the dimensionality, rather than cardinality, of the system. We characterize this dependence explicitly as $ ilde{O}(\sqrt{d_K d_E T})$ where $T$ is time elapsed, $d_K$ is the Kolmogorov dimension and $d_E$ is the \emph{eluder dimension}. These represent the first unified regret bounds for model-based reinforcement learning and provide state of the art guarantees in several important settings. Moreover, we present a simple and computationally efficient algorithm \emph{posterior sampling for reinforcement learning} (PSRL) that satisfies these bounds.

研究动机与目标

开发基于模型强化学习的遗憾界，其依赖于函数类的内在维度，而非状态和动作空间的大小。
将可忽略维数的概念从bandits扩展到强化学习，以刻画在函数逼近下的MDP中学习的复杂性。
证明后验抽样强化学习（PSRL）在奖励和转移函数未知的通用MDP中可实现这些改进的遗憾界。
提供一个统一的理论分析，涵盖并优于线性、利普希茨连续和赫尔德连续MDP中的先前结果。
证明该算法在高维或连续空间中仍保持计算高效，同时实现最优遗憾界缩放。

提出的方法

提出了一般遗憾界的上界为 $\tilde{O}(\sqrt{d_K d_E T})$，其中 $d_K$ 为柯尔莫哥洛夫维数，$d_E$ 为可忽略维数，适用于具有函数逼近的基于模型强化学习。
提出可忽略维数在MDP中的新颖扩展，以捕捉在函数类中学习奖励和转移函数的复杂性。
使用置信集 $\mathcal{R}_k$ 和 $\mathcal{P}_k$ 表示奖励和转移函数，通过后验抽样构建，并附带高概率界。
应用后验抽样引理，将期望遗憾界绑定为估计误差之和，权重为未来值函数的利普希茨常数。
使用并集界和集中不等式控制置信集失效的概率，设定 $\delta = 1/(8T)$ 以平衡遗憾与置信度。
通过结合覆盖数 $n_{\mathcal{F}}$、函数类复杂度 $C_{\mathcal{F}}$ 和可忽略维数 $d_E(\mathcal{F})$ 推导最终的遗憾界。

实验结果

研究问题

RQ1基于模型强化学习的遗憾界能否以函数类的内在维度表示，而非状态和动作的基数？
RQ2可忽略维数如何从bandits推广到完整的MDP设定，以捕捉序列决策中学习的复杂性？
RQ3当奖励和转移函数属于低维函数类时，后验抽样强化学习（PSRL）是否能实现最优遗憾界缩放？
RQ4柯尔莫哥洛夫维数与可忽略维数之间的关系如何决定基于模型强化学习的统计效率？
RQ5所提出的分析能否统一并改进线性、利普希茨连续和赫尔德连续MDP中的现有遗憾界？

主要发现

本文首次建立了基于模型强化学习的统一遗憾界，其缩放依赖于可忽略维数 $d_E$ 和柯尔莫哥洛夫维数 $d_K$，而非状态和动作的数量。
遗憾界为 $\tilde{O}(\sqrt{d_K d_E T})$，相比经典的 $\tilde{O}(S\sqrt{AT})$ 边界，其依赖于函数类的复杂度而非状态-动作基数，因而更优。
对于线性MDP，该边界实现了 $\tilde{O}(\sqrt{T})$ 的遗憾，且常数与维度无关，优于先前具有指数依赖关系的结果。
在利普希茨连续和赫尔德连续MDP中，该边界恢复了已知速率，同时比先前方法更具普遍性且计算上更可行。
分析证实PSRL满足这些边界，为MDP中的函数逼近提供了一种简单、高效且理论最优的算法。
关键技术突破在于将可忽略维数扩展至MDP，从而能够对序列决策问题中学习复杂性的清晰刻画。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。