[论文解读] Optimism in Reinforcement Learning with Generalized Linear Function Approximation
本文提出了一种可证明高效的强化学习算法,使用广义线性函数逼近并配合乐观Bellman回退,实现子线性遗憾界 tilde O(H sqrt(d^3 T)).
We design a new provably efficient algorithm for episodic reinforcement learning with generalized linear function approximation. We analyze the algorithm under a new expressivity assumption that we call "optimistic closure," which is strictly weaker than assumptions from prior analyses for the linear setting. With optimistic closure, we prove that our algorithm enjoys a regret bound of $ ilde{O}(\sqrt{d^3 T})$ where $d$ is the dimensionality of the state-action features and $T$ is the number of episodes. This is the first statistically and computationally efficient algorithm for reinforcement learning with generalized linear functions.
研究动机与目标
- 在需要函数逼近的无限状态空间的 episodic MDPs 中推动学习。
- 提出一个简单的基于GLM的Q学习变体,通过乐观性保持样本效率。
- 引入一个称为乐观闭包的表达能力假设,它削弱了先前基于动态的要求。
- 在新假设下为所提出的算法建立遗憾界限保证。
提出的方法
- 使用GLM族来近似最优Q函数,配有已知的特征映射和链接函数。
- 通过向后动态规划步骤和乐观奖励来维持乐观的Q值估计。
- 在每个时间步通过解约束最小二乘问题来更新Q函数参数。
- 通过下界的形式定义一个乐观的Q函数:min{1, f(phi(s,a)^T hat{theta}) + gamma ||phi(s,a)||_{Lambda^{-1}}}。
- 针对当前的乐观Q函数部署贪心策略并进行若干回合的迭代。
实验结果
研究问题
- RQ1乐观闭包是否能提供足够的表达能力,使广义线性函数逼近下的强化学习具备可证明的高效性?
- RQ2基于GLM的乐观性在保证性和实用性方面与线性MDP假设相比如何?
- RQ3在乐观闭包下使用GLM时,关于episodic RL可以达到哪些遗憾界?
- RQ4所提方法是否能够扩展到超越线性模型的更广泛函数类,同时保持计算可行?
主要发现
- 提出LSVI-UCB,一种基于GLM的面向episodic RL的动态规划算法。
- 在温和的正则条件下,证明了在乐观闭包下遗憾界为 tilde O(H sqrt(d^3 T))。
- 表明乐观闭包意味着可实现性,并且严格弱于线性MDP假设。
- 证明该方法推广了先前的表格和线性函数结果,使GLM-based RL成为可能。
- 推论:在带标准特征的表格设定下,遗憾界变为 tilde O(H |S|^3 |A|^3 T)(基于论文的框架)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。