Skip to main content
QUICK REVIEW

[论文解读] Provably efficient RL with Rich Observations via Latent State Decoding

Simon S. Du, Akshay Krishnamurthy|arXiv (Cornell University)|Jan 25, 2019
Machine Learning and Algorithms被引用 58
一句话总结

提出一种可证明样本高效的强化学习方法,针对 rich-observation MDPs,通过显式学习从观测到潜在状态的解码并构建含有限样本保证的探索策略覆盖。该方法利用向后概率向量和归纳解码,将问题简化为一个可处理的潜在状态探索问题。

ABSTRACT

We study the exploration problem in episodic MDPs with rich observations generated from a small number of latent states. Under certain identifiability assumptions, we demonstrate how to estimate a mapping from the observations to latent states inductively through a sequence of regression and clustering steps -- where previously decoded latent states provide labels for later regression problems -- and use it to construct good exploration policies. We provide finite-sample guarantees on the quality of the learned state decoding function and exploration policies, and complement our theory with an empirical evaluation on a class of hard exploration problems. Our method exponentially improves over $Q$-learning with naïve exploration, even when $Q$-learning has cheating access to latent states.

研究动机与目标

  • 在由少量潜在状态空间产生的丰富观测的情境下,激发并解决 episodic MDP 的探索问题。
  • 引入一种可处理的潜在状态解码方法,使得探索高效进行,而无需依赖完整的观测空间。
  • 对解码准确性以及探索策略质量提供有限样本保证。
  • 展示实证验证,在超越天真基线的困难问题上显示出强大的探索性能。

提出的方法

  • 构建区块马尔可夫决策过程(BMDP),捕捉潜在状态、可观测上下文和转移。
  • 在 Δ_MK 下,使用 g(x) 和 φ(s) 将上下文和潜在状态嵌入到一个共享的低维空间,前提是解码函数族具备可实现性假设。
  • 使用向后概率向量 bν(s′) 表示潜在状态,并建立 γ-可分性以通过这些向量来区分潜在状态。
  • 通过 ERM 目标求解一系列最小二乘问题,以学习上下文嵌入并推导解码函数。
  • 对嵌入向量进行聚类,以识别潜在状态区块并定义解码映射 f̂,将上下文映射到已发现的潜在状态。
  • 通过估计转移概率并应用动态规划来达到目标潜在状态,构建 ε-策略覆盖。
  • 逐层迭代(h = 2,…,H+1)以构建潜在状态集合、嵌入、转移估计和策略集合,确保覆盖性和准确性边界。

实验结果

研究问题

  • RQ1在可控的可分性条件下,是否可以将丰富观测有效解码成一个小的潜在状态空间?
  • RQ2在具有丰富观测的 BMDP 中,解码准确性以及由此得到的策略覆盖的有限样本保证是什么?
  • RQ3如何利用向后条件概率通过回归来学习潜在状态的嵌入?
  • RQ4就样本效率而言,提出的归纳解码方法与天真探索和基线 RL 方法相比有何差异?
  • RQ5γ-可分性边际和 μ_min(最小到达概率)在样本复杂度中的作用是什么?

主要发现

  • 在可分性假设下,本文提供了在有限样本内恢复潜在状态解码函数和 ε-策略覆盖的保证。
  • PCID 算法在高概率下实现的策略覆盖大小为 O(MH),其样本复杂度随观测空间大小多项式对数缩放,并随 M、K、H 多项式缩放。
  • 向后概率向量形式化通过最小二乘回归实现解码步骤,产生与潜在状态对齐的准确状态嵌入。
  • 在确定性 BMDP 中,ε 参数可以为零,简化解码并通过固定动作序列实现精确状态到达。
  • 实证结果显示,在基线对手具备窃取访问潜在状态能力的情况下,探索效率相较天真 Q 学习有显著提升。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。