Skip to main content
QUICK REVIEW

[论文解读] Is Reinforcement Learning More Difficult Than Bandits? A Near-optimal Algorithm Escaping the Curse of Horizon

Zihan Zhang, Xiangyang Ji|arXiv (Cornell University)|Sep 28, 2020
Advanced Bandit Algorithms Research参考文献 46被引用 30
一句话总结

本文介绍 MVP,一种带伯恩斯坦型奖励的单调值传播算法,在 episodic RL 中实现接近带臂问题的样本复杂度,其遗憾界接近情境带臂下界,且对 horizon H 的依赖为对数级。

ABSTRACT

Episodic reinforcement learning and contextual bandits are two widely studied sequential decision-making problems. Episodic reinforcement learning generalizes contextual bandits and is often perceived to be more difficult due to long planning horizon and unknown state-dependent transitions. The current paper shows that the long planning horizon and the unknown state-dependent transitions (at most) pose little additional difficulty on sample complexity. We consider the episodic reinforcement learning with $S$ states, $A$ actions, planning horizon $H$, total reward bounded by $1$, and the agent plays for $K$ episodes. We propose a new algorithm, extbf{M}onotonic extbf{V}alue extbf{P}ropagation (MVP), which relies on a new Bernstein-type bonus. Compared to existing bonus constructions, the new bonus is tighter since it is based on a well-designed monotonic value function. In particular, the \emph{constants} in the bonus should be subtly setting to ensure optimism and monotonicity. We show MVP enjoys an $O\left(\left(\sqrt{SAK} + S^2A ight) \poly\log \left(SAHK ight) ight)$ regret, approaching the $Ω\left(\sqrt{SAK} ight)$ lower bound of \emph{contextual bandits} up to logarithmic terms. Notably, this result 1) \emph{exponentially} improves the state-of-the-art polynomial-time algorithms by Dann et al. [2019] and Zanette et al. [2019] in terms of the dependency on $H$, and 2) \emph{exponentially} improves the running time in [Wang et al. 2020] and significantly improves the dependency on $S$, $A$ and $K$ in sample complexity.

研究动机与目标

  • 评估在总奖励有界的条件下, episodic RL 是否能够在样本效率上达到上下文带臂。
  • 提出一个计算上高效的算法,使对 horizon H 的依赖为对数级。
  • 引入一种伯恩斯坦型探索奖金,确保乐观性和单调值传播。
  • 给出理论保证:遗憾界和 PAC 上界接近 CB 下界,至多对数因子之内。

提出的方法

  • 提出 Monotonic Value Propagation (MVP),一种基于 UCB 的模型驱动算法,带有一种新的伯恩斯坦型奖金。
  • 将 Q_h(s,a) 定义为 hat{r}(s,a) + hat{P}_{s,a} V_{h+1} + b_h(s,a) 并确保乐观性。
  • 引入一种单调性属性:Q_h(V_{h+1}) 与 V_{h+1} 单调增, 从而实现对未来 horizon 的乐观性传播独立于 horizon。
  • 使用基于触发的翻倍更新框架来更新奖励和转移并在各个情节传播估计。
  • 推导一种递归方差界技术,通过高阶矩展开在整个 horizon 上控制总方差。
  • 建立遗憾和 PAC 上界:Regret(K) = O((sqrt(SAK) + S^2A) polylog(SAHK/δ)) 和 PAC-RL 边界 O((SA/ε^2) + (S^2A/ε)) polylog 因子。

实验结果

研究问题

  • RQ1在总奖励有界的前提下,episodic RL 是否在样本复杂度上额外高于上下文带臂?
  • RQ2是否能设计一个计算上高效且具有遗憾和 PAC-guarantees 的算法,其上界接近 CB 下界,至多相对于对数因子?
  • RQ3在保持近最优样本复杂度的前提下, horizon 的依赖是否可以从多项式降为对数?
  • RQ4哪种探索奖金结构能够在整个 horizon 上确保乐观性和单调值传播?

主要发现

  • MVP 以高概率达到遗憾 O((sqrt(SAK) + S^2A) polylog(SAHK))。
  • 一个标准化简证明确,ε-次优策略可在 O((SA/ε^2) + (S^2A/ε)) polylog(SAH/εδ) 回合中找到。
  • 该算法计算上高效(多项式时间),并在其界中实现对 H 的对数依赖。
  • 一种新的伯恩斯坦型奖金,结合单调性属性,收紧了实现近带盲性能所需的乐观性。
  • 结果在 RL 与 CB 之间的差距上有实质性缩小,并在 H 的依赖和 S,A,K 的扩展性方面优于先前的多项式时间算法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。