Skip to main content
QUICK REVIEW

[论文解读] Optimism in Reinforcement Learning with Generalized Linear Function Approximation

Yining Wang, Ruosong Wang|arXiv (Cornell University)|Dec 9, 2019
Advanced Bandit Algorithms Research参考文献 29被引用 54
一句话总结

本文提出了一种可证明高效的强化学习算法,使用广义线性函数逼近并配合乐观Bellman回退,实现子线性遗憾界 tilde O(H sqrt(d^3 T)).

ABSTRACT

We design a new provably efficient algorithm for episodic reinforcement learning with generalized linear function approximation. We analyze the algorithm under a new expressivity assumption that we call "optimistic closure," which is strictly weaker than assumptions from prior analyses for the linear setting. With optimistic closure, we prove that our algorithm enjoys a regret bound of $ ilde{O}(\sqrt{d^3 T})$ where $d$ is the dimensionality of the state-action features and $T$ is the number of episodes. This is the first statistically and computationally efficient algorithm for reinforcement learning with generalized linear functions.

研究动机与目标

  • 在需要函数逼近的无限状态空间的 episodic MDPs 中推动学习。
  • 提出一个简单的基于GLM的Q学习变体,通过乐观性保持样本效率。
  • 引入一个称为乐观闭包的表达能力假设,它削弱了先前基于动态的要求。
  • 在新假设下为所提出的算法建立遗憾界限保证。

提出的方法

  • 使用GLM族来近似最优Q函数,配有已知的特征映射和链接函数。
  • 通过向后动态规划步骤和乐观奖励来维持乐观的Q值估计。
  • 在每个时间步通过解约束最小二乘问题来更新Q函数参数。
  • 通过下界的形式定义一个乐观的Q函数:min{1, f(phi(s,a)^T hat{theta}) + gamma ||phi(s,a)||_{Lambda^{-1}}}。
  • 针对当前的乐观Q函数部署贪心策略并进行若干回合的迭代。

实验结果

研究问题

  • RQ1乐观闭包是否能提供足够的表达能力,使广义线性函数逼近下的强化学习具备可证明的高效性?
  • RQ2基于GLM的乐观性在保证性和实用性方面与线性MDP假设相比如何?
  • RQ3在乐观闭包下使用GLM时,关于episodic RL可以达到哪些遗憾界?
  • RQ4所提方法是否能够扩展到超越线性模型的更广泛函数类,同时保持计算可行?

主要发现

  • 提出LSVI-UCB,一种基于GLM的面向episodic RL的动态规划算法。
  • 在温和的正则条件下,证明了在乐观闭包下遗憾界为 tilde O(H sqrt(d^3 T))。
  • 表明乐观闭包意味着可实现性,并且严格弱于线性MDP假设。
  • 证明该方法推广了先前的表格和线性函数结果,使GLM-based RL成为可能。
  • 推论:在带标准特征的表格设定下,遗憾界变为 tilde O(H |S|^3 |A|^3 T)(基于论文的框架)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。