QUICK REVIEW

[论文解读] Optimism in Reinforcement Learning with Generalized Linear Function Approximation

Yining Wang, Ruosong Wang|arXiv (Cornell University)|Dec 9, 2019

Advanced Bandit Algorithms Research参考文献 29被引用 54

一句话总结

本文提出了一种可证明高效的强化学习算法，使用广义线性函数逼近并配合乐观Bellman回退，实现子线性遗憾界 tilde O(H sqrt(d^3 T)).

ABSTRACT

We design a new provably efficient algorithm for episodic reinforcement learning with generalized linear function approximation. We analyze the algorithm under a new expressivity assumption that we call "optimistic closure," which is strictly weaker than assumptions from prior analyses for the linear setting. With optimistic closure, we prove that our algorithm enjoys a regret bound of $ ilde{O}(\sqrt{d^3 T})$ where $d$ is the dimensionality of the state-action features and $T$ is the number of episodes. This is the first statistically and computationally efficient algorithm for reinforcement learning with generalized linear functions.

研究动机与目标

在需要函数逼近的无限状态空间的 episodic MDPs 中推动学习。
提出一个简单的基于GLM的Q学习变体，通过乐观性保持样本效率。
引入一个称为乐观闭包的表达能力假设，它削弱了先前基于动态的要求。
在新假设下为所提出的算法建立遗憾界限保证。

提出的方法

使用GLM族来近似最优Q函数，配有已知的特征映射和链接函数。
通过向后动态规划步骤和乐观奖励来维持乐观的Q值估计。
在每个时间步通过解约束最小二乘问题来更新Q函数参数。
通过下界的形式定义一个乐观的Q函数：min{1, f(phi(s,a)^T hat{theta}) + gamma ||phi(s,a)||_{Lambda^{-1}}}。
针对当前的乐观Q函数部署贪心策略并进行若干回合的迭代。

实验结果

研究问题

RQ1乐观闭包是否能提供足够的表达能力，使广义线性函数逼近下的强化学习具备可证明的高效性？
RQ2基于GLM的乐观性在保证性和实用性方面与线性MDP假设相比如何？
RQ3在乐观闭包下使用GLM时，关于episodic RL可以达到哪些遗憾界？
RQ4所提方法是否能够扩展到超越线性模型的更广泛函数类，同时保持计算可行？

主要发现

提出LSVI-UCB，一种基于GLM的面向episodic RL的动态规划算法。
在温和的正则条件下，证明了在乐观闭包下遗憾界为 tilde O(H sqrt(d^3 T))。
表明乐观闭包意味着可实现性，并且严格弱于线性MDP假设。
证明该方法推广了先前的表格和线性函数结果，使GLM-based RL成为可能。
推论：在带标准特征的表格设定下，遗憾界变为 tilde O(H |S|^3 |A|^3 T)（基于论文的框架）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。