QUICK REVIEW

[论文解读] FLAMBE: Structural Complexity and Representation Learning of Low Rank MDPs

Alekh Agarwal, Sham M. Kakade|arXiv (Cornell University)|Jun 18, 2020

Advanced Bandit Algorithms Research参考文献 58被引用 36

一句话总结

FLAMBE 研究低秩 MDP 的表示学习，证明学到的嵌入能够实现样本高效的基于模型的强化学习并具备可证明的保证，并引入一个用于在未知特征下学习表示的探索驱动算法。

ABSTRACT

In order to deal with the curse of dimensionality in reinforcement learning (RL), it is common practice to make parametric assumptions where values or policies are functions of some low dimensional feature space. This work focuses on the representation learning question: how can we learn such features? Under the assumption that the underlying (unknown) dynamics correspond to a low rank transition matrix, we show how the representation learning question is related to a particular non-linear matrix decomposition problem. Structurally, we make precise connections between these low rank MDPs and latent variable models, showing how they significantly generalize prior formulations for representation learning in RL. Algorithmically, we develop FLAMBE, which engages in exploration and representation learning for provably efficient RL in low rank transition models.

研究动机与目标

在低科动态下为强化学习的表示学习提供动机，以缓解维度灾难。
形式化低秩 MDP 与潜变量模型之间的关系，以为表示学习提供理论依据。
开发 Flambe，一种基于模型的探索算法，能够学习嵌入并实现获得奖励最大化的策略。
在可实现性假设下，为学习准确的环境模型和表示提供统计与计算保证。

提出的方法

用嵌入函数 φ 和 μ 将低秩 MDP 表述为 T(x'|x,a)=<φ(x,a), μ(x')>，并假设 φ 和 μ 的范数有界。
引入两个函数类 Φ 和 Υ，并假设 φ*_h ∈ Φ 且 μ*_h ∈ Υ 的可实现性假设，以实现可处理的学习。
定义一个无奖励探索目标以及对学习模型 M̂=(φ̂, μ̂) 在跨策略复现一步动态方面的一致精度标准。
提出 Flambe，这是一个迭代算法：收集转移，应用最大似然 oracle (MLE) 学习嵌入，并使用基于模型的规划器设计探索策略。
开发一个受椭圆势场启发的规划子程序，以最大化学习特征空间的覆盖率并构建一个混合探索策略。
提出两种算法变体：一种通用的低秩 MDP 版本，另一种为简单形分解版本，具有不同的样本复杂度。

实验结果

研究问题

RQ1在嵌入未知的情况下，低秩 MDP 是否可以通过表示学习有效学习？
RQ2如何引导探索以实现对学习特征空间的全面覆盖，从而准确识别转移动力学？
RQ3在可实现性条件下，学习环境模型和表示的统计保证是什么？
RQ4在可学习性和规划方面，低秩 MDP 的表达能力和局限性与块状 MDP 和潜变量模型相比如何？
RQ5在不同分解假设下（嵌入维度 d 与潜在维度 dLV）的学习表示的计算和样本复杂度含义是什么？

主要发现

算法	设定	样本复杂度	计算
Pcid (Du et al., 2019b)	block MDP	d^4 H^2 K^4 (1/η^4 γ^2 + 1/ε^2)	Oracle efficient
Homer (Misra et al., 2019)	block MDP	d^8 H^4 K^4 (1/η^3 + 1/ε^2)	Oracle efficient
Olive (Jiang et al., 2017)	low Bellman rank	d^2 H^3 K / ε^2	Inefficient
Sun et al. (2019)	low Witness rank	d^2 H^3 K / ε^2	Inefficient
Flambe (this paper)	low rank MDP	d^7 K^9 H^22 / ε^10	Oracle efficient

Flambe 在可实现性条件下实现了低秩 MDP 模型的统计与计算高效学习。
低秩 MDP 比块状 MDP 表达能力更强，Flambe 借助潜变量视角来实现表示学习。
在假设 1（可实现性）和基于模型的规划器下，Flambe 获得统一精度的学习模型，时间复杂度为多项式，轨迹数量大约为 H^22 K^9 d^7 / ε^10（带对数因子）。
在 simplex 分解上运行的 Flambe 的变体，在时限 H、动作空间 K、和 ε 上的依赖性有所改进，复杂度为 H^11 K^5 dLV^5 / ε^3（带对数因子）。
基于可达性的改进表明，在可达性假设下，潜变量维度 dLV 有界，Flambe 可以在无抽样或降低抽样需求的情况下运行。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。