Skip to main content
QUICK REVIEW

[论文解读] Regret Minimization for Reinforcement Learning by Evaluating the Optimal Bias Function

Zihan Zhang, Xiangyang Ji|arXiv (Cornell University)|Jun 12, 2019
Reinforcement Learning in Robotics被引用 23
一句话总结

该论文提出了一种基于乐观面对不确定性(OFU)的强化学习算法,利用最优偏置函数 $h^*$ 的状态对差异,实现了对具有 $S$ 个状态、$A$ 个动作且 $h^*$ 的跨度存在已知上界 $H$ 的有限时域 MDP 的遗憾界 $\tilde{O}(\sqrt{SAHT})$。该方法相比先前基于 OFU 的遗憾界改进了 $\sqrt{S}$ 倍,且在对数因子范围内匹配已知的下界 $\Omega(\sqrt{SAHT})$。

ABSTRACT

We present an algorithm based on the \\emph{Optimism in the Face of Uncertainty} (OFU) principle which is able to learn Reinforcement Learning (RL) modeled by Markov decision process (MDP) with finite state-action space efficiently. By evaluating the state-pair difference of the optimal bias function $h^{*}$, the proposed algorithm achieves a regret bound of $\ ilde{O}(\\sqrt{SAHT})$\\footnote{The symbol $\ ilde{O}$ means $O$ with log factors ignored. } for MDP with $S$ states and $A$ actions, in the case that an upper bound $H$ on the span of $h^{*}$, i.e., $sp(h^{*})$ is known. This result outperforms the best previous regret bounds $\ ilde{O}(S\\sqrt{AHT}) $\\citep{fruit2019improved} by a factor of $\\sqrt{S}$. Furthermore, this regret bound matches the lower bound of $\\Omega(\\sqrt{SAHT}) $\\citep{jaksch2010near} up to a logarithmic factor. As a consequence, we show that there is a near optimal regret bound of $\ ilde{O}(\\sqrt{SADT})$ for MDPs with a finite diameter $D$ compared to the lower bound of $\\Omega(\\sqrt{SADT}) $\\citep{jaksch2010near}.

研究动机与目标

  • 开发一种针对有限状态动作空间 MDP 的强化学习算法,以获得改进的遗憾界。
  • 解决现有基于 OFU 的算法因 MDP 上下文集过松而导致遗憾缩放次优的局限性。
  • 利用最优偏置函数 $h^*$ 的结构来收紧上下文集并提升遗憾性能。
  • 实现一个遗憾界,其在对数因子范围内匹配已知的信息论下界 $\Omega(\sqrt{SAHT})$。
  • 证明对于具有有限直径 $D$ 的 MDP,遗憾界 $\tilde{O}(\sqrt{SADT})$ 是近似最优的。

提出的方法

  • 该算法基于状态对差异构建最优偏置函数 $h^*$ 的上下文集 $\mathcal{H}_k$,从而实现更紧致的 MDP 上下文集。
  • 它利用轨迹中状态动作对的顺序来计算 $\mathcal{H}_k$,从而利用了先前方法忽略的时间结构。
  • 该方法维护一个转移模型的上下文集 $\mathcal{P}$,使得真实 $P$ 以高概率落在 $\mathcal{P}$ 内,基于大数定律不等式。
  • 通过利用偏置函数跨度分析乐观 MDP 与真实 MDP 价值函数之间的差异,来界定遗憾。
  • 该算法通过在上下文集中选择最优 MDP 的最优策略来应用 OFU 原则,从而在最小化遗憾的同时确保探索。
  • 理论分析使用归纳法和集中不等式(例如,引理 17)来确保对转移模型估计的高概率置信度。

实验结果

研究问题

  • RQ1能否通过利用最优偏置函数 $h^*$ 的结构来改进基于 OFU 的强化学习算法的遗憾界?
  • RQ2评估 $h^*$ 的状态对差异是否能实现对 MDP 更紧致的上下文集,从而获得更优的遗憾界?
  • RQ3与先前实现 $\tilde{O}(S\sqrt{AHT})$ 的 OFU 方法相比,能否将遗憾界降低 $\sqrt{S}$ 倍?
  • RQ4所得遗憾界 $\tilde{O}(\sqrt{SAHT})$ 是否近似最优,且在对数因子范围内匹配已知下界 $\Omega(\sqrt{SAHT})$?
  • RQ5该方法是否也能为具有有限直径 $D$ 的 MDP 获得近似最优的遗憾界 $\tilde{O}(\sqrt{SADT})$?

主要发现

  • 当已知 $\mathrm{sp}(h^*)$ 的上界 $H$ 时,所提算法实现了 $\tilde{O}(\sqrt{SAHT})$ 的遗憾界。
  • 该遗憾界相比先前最优的基于 OFU 的遗憾界 $\tilde{O}(S\sqrt{AHT})$ 改进了 $\sqrt{S}$ 倍。
  • 遗憾界 $\tilde{O}(\sqrt{SAHT})$ 在对数因子范围内匹配已知下界 $\Omega(\sqrt{SAHT})$,表明其近似最优。
  • 作为推论,该算法对具有有限直径 $D$ 的 MDP 实现了 $\tilde{O}(\sqrt{SADT})$ 的遗憾界,与下界 $\Omega(\sqrt{SADT})$ 匹配。
  • 该方法的关键创新在于利用状态动作对的时间顺序来优化 $h^*$ 的上下文集,从而获得比先前方法更紧致的界限。
  • 分析确认,在推导出的集中不等式下,转移模型 $P$ 的上下文集以高概率包含真实 $P$。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。