Skip to main content
QUICK REVIEW

[论文解读] Provably Efficient Exploration for RL with Unsupervised Learning

Fei Feng, Ruosong Wang|arXiv (Cornell University)|Mar 15, 2020
Advanced Bandit Algorithms Research参考文献 1被引用 4
一句话总结

本文通过将无监督学习与无遗憾的表格化强化学习相结合,提出了一种可证明高效的探索框架。证明了当无监督算法具有多项式样本复杂度时,可在与潜在状态数量呈多项式关系的时间内找到近似最优策略——显著少于观测数量,为丰富观测马尔可夫决策过程中的高效探索提供了理论保证。

ABSTRACT

Motivated by the prevailing paradigm of using unsupervised learning for efficient exploration in reinforcement learning (RL) problems [tang2017exploration,bellemare2016unifying], we investigate when this paradigm is provably efficient. We study episodic Markov decision processes with rich observations generated from a small number of latent states. We present a general algorithmic framework that is built upon two components: an unsupervised learning algorithm and a no-regret tabular RL algorithm. Theoretically, we prove that as long as the unsupervised learning algorithm enjoys a polynomial sample complexity guarantee, we can find a near-optimal policy with sample complexity polynomial in the number of latent states, which is significantly smaller than the number of observations. Empirically, we instantiate our framework on a class of hard exploration problems to demonstrate the practicality of our theory.

研究动机与目标

  • 探究无监督学习在何种条件下可实现强化学习中可证明高效的探索。
  • 解决从少量潜在状态派生出丰富观测的周期性马尔可夫决策过程中的高效探索挑战。
  • 开发一种将无监督学习与表格化强化学习相结合的通用算法框架,以提升样本效率。
  • 建立样本复杂度的理论保证,其规模以潜在状态数量为基准,而非观测数量。

提出的方法

  • 该框架结合无监督学习算法将丰富观测映射到潜在状态,并结合无遗憾的表格化强化学习算法在潜在空间中学习策略。
  • 假设无监督算法具有多项式样本复杂度,以确保潜在状态推断的高效性。
  • 强化学习部分在潜在马尔可夫决策过程中运行,利用无遗憾学习收敛至近似最优策略。
  • 理论分析表明,整体样本复杂度与潜在状态数量呈多项式关系,而非与观测数量相关。
  • 在具有挑战性的探索问题上实例化该框架,以验证其实际可行性。

实验结果

研究问题

  • RQ1在何种条件下,无监督学习可导致强化学习中可证明高效的探索?
  • RQ2学习近似最优策略的样本复杂度能否以潜在状态数量而非观测数量为基准进行界定?
  • RQ3如何将无监督表征学习与无遗憾强化学习正式结合,以确保理论上的效率?
  • RQ4当无监督组件具有多项式样本效率时,该框架是否仍能保持样本效率?
  • RQ5该理论框架是否可在具有挑战性的探索任务上实际实现?

主要发现

  • 该框架实现了近似最优策略学习,其样本复杂度在潜在状态数量上呈多项式关系,远小于观测数量。
  • 只要无监督学习算法具有多项式样本复杂度,理论保证即可成立。
  • 实验结果表明,该框架在一类具有挑战性的探索问题上具有实际可行性。
  • 该方法通过利用环境的低维潜在结构,有效缓解了样本复杂度瓶颈。
  • 将无监督学习与无遗憾强化学习相结合,可在无需预先知晓潜在结构的情况下实现可证明的效率。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。