QUICK REVIEW

[论文解读] Regret Minimization for Reinforcement Learning by Evaluating the Optimal Bias Function

Zihan Zhang, Xiangyang Ji|arXiv (Cornell University)|Jun 12, 2019

Reinforcement Learning in Robotics被引用 23

一句话总结

该论文提出了一种基于乐观面对不确定性（OFU）的强化学习算法，利用最优偏置函数 $h^*$ 的状态对差异，实现了对具有 $S$ 个状态、$A$ 个动作且 $h^*$ 的跨度存在已知上界 $H$ 的有限时域 MDP 的遗憾界 $\tilde{O}(\sqrt{SAHT})$。该方法相比先前基于 OFU 的遗憾界改进了 $\sqrt{S}$ 倍，且在对数因子范围内匹配已知的下界 $\Omega(\sqrt{SAHT})$。

ABSTRACT

We present an algorithm based on the \\emph{Optimism in the Face of Uncertainty} (OFU) principle which is able to learn Reinforcement Learning (RL) modeled by Markov decision process (MDP) with finite state-action space efficiently. By evaluating the state-pair difference of the optimal bias function $h^{*}$, the proposed algorithm achieves a regret bound of $\ ilde{O}(\\sqrt{SAHT})$\\footnote{The symbol $\ ilde{O}$ means $O$ with log factors ignored. } for MDP with $S$ states and $A$ actions, in the case that an upper bound $H$ on the span of $h^{*}$, i.e., $sp(h^{*})$ is known. This result outperforms the best previous regret bounds $\ ilde{O}(S\\sqrt{AHT}) $\\citep{fruit2019improved} by a factor of $\\sqrt{S}$. Furthermore, this regret bound matches the lower bound of $\\Omega(\\sqrt{SAHT}) $\\citep{jaksch2010near} up to a logarithmic factor. As a consequence, we show that there is a near optimal regret bound of $\ ilde{O}(\\sqrt{SADT})$ for MDPs with a finite diameter $D$ compared to the lower bound of $\\Omega(\\sqrt{SADT}) $\\citep{jaksch2010near}.

研究动机与目标

开发一种针对有限状态动作空间 MDP 的强化学习算法，以获得改进的遗憾界。
解决现有基于 OFU 的算法因 MDP 上下文集过松而导致遗憾缩放次优的局限性。
利用最优偏置函数 $h^*$ 的结构来收紧上下文集并提升遗憾性能。
实现一个遗憾界，其在对数因子范围内匹配已知的信息论下界 $\Omega(\sqrt{SAHT})$。
证明对于具有有限直径 $D$ 的 MDP，遗憾界 $\tilde{O}(\sqrt{SADT})$ 是近似最优的。

提出的方法

该算法基于状态对差异构建最优偏置函数 $h^*$ 的上下文集 $\mathcal{H}_k$，从而实现更紧致的 MDP 上下文集。
它利用轨迹中状态动作对的顺序来计算 $\mathcal{H}_k$，从而利用了先前方法忽略的时间结构。
该方法维护一个转移模型的上下文集 $\mathcal{P}$，使得真实 $P$ 以高概率落在 $\mathcal{P}$ 内，基于大数定律不等式。
通过利用偏置函数跨度分析乐观 MDP 与真实 MDP 价值函数之间的差异，来界定遗憾。
该算法通过在上下文集中选择最优 MDP 的最优策略来应用 OFU 原则，从而在最小化遗憾的同时确保探索。
理论分析使用归纳法和集中不等式（例如，引理 17）来确保对转移模型估计的高概率置信度。

实验结果

研究问题

RQ1能否通过利用最优偏置函数 $h^*$ 的结构来改进基于 OFU 的强化学习算法的遗憾界？
RQ2评估 $h^*$ 的状态对差异是否能实现对 MDP 更紧致的上下文集，从而获得更优的遗憾界？
RQ3与先前实现 $\tilde{O}(S\sqrt{AHT})$ 的 OFU 方法相比，能否将遗憾界降低 $\sqrt{S}$ 倍？
RQ4所得遗憾界 $\tilde{O}(\sqrt{SAHT})$ 是否近似最优，且在对数因子范围内匹配已知下界 $\Omega(\sqrt{SAHT})$？
RQ5该方法是否也能为具有有限直径 $D$ 的 MDP 获得近似最优的遗憾界 $\tilde{O}(\sqrt{SADT})$？

主要发现

当已知 $\mathrm{sp}(h^*)$ 的上界 $H$ 时，所提算法实现了 $\tilde{O}(\sqrt{SAHT})$ 的遗憾界。
该遗憾界相比先前最优的基于 OFU 的遗憾界 $\tilde{O}(S\sqrt{AHT})$ 改进了 $\sqrt{S}$ 倍。
遗憾界 $\tilde{O}(\sqrt{SAHT})$ 在对数因子范围内匹配已知下界 $\Omega(\sqrt{SAHT})$，表明其近似最优。
作为推论，该算法对具有有限直径 $D$ 的 MDP 实现了 $\tilde{O}(\sqrt{SADT})$ 的遗憾界，与下界 $\Omega(\sqrt{SADT})$ 匹配。
该方法的关键创新在于利用状态动作对的时间顺序来优化 $h^*$ 的上下文集，从而获得比先前方法更紧致的界限。
分析确认，在推导出的集中不等式下，转移模型 $P$ 的上下文集以高概率包含真实 $P$。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。