[论文解读] Provably Efficient Maximum Entropy Exploration
本文给出一种在未知 MDP 中使用计划和密度估计预言的 Frank-Wolfe 风格方法,能对内在状态访问目标(如状态分布的最大熵)进行可证明高效的优化。
Suppose an agent is in a (possibly unknown) Markov Decision Process in the absence of a reward signal, what might we hope that an agent can efficiently learn to do? This work studies a broad class of objectives that are defined solely as functions of the state-visitation frequencies that are induced by how the agent behaves. For example, one natural, intrinsically defined, objective problem is for the agent to learn a policy which induces a distribution over state space that is as uniform as possible, which can be measured in an entropic sense. We provide an efficient algorithm to optimize such such intrinsically defined objectives, when given access to a black box planning oracle (which is robust to function approximation). Furthermore, when restricted to the tabular setting where we have sample based access to the MDP, our proposed algorithm is provably efficient, both in terms of its sample and computational complexities. Key to our algorithmic methodology is utilizing the conditional gradient method (a.k.a. the Frank-Wolfe algorithm) which utilizes an approximate MDP solver.
研究动机与目标
- 在奖励不可用或稀疏时,激励在未知 MDP 中进行探索。
- 定义并优化依赖于状态访问分布的内在目标(如熵)。
- 展示如何通过近似规划预言和状态分布预言实现可证明的高效性。
- 给出带样本和计算保证的表格化和未知 MDP 情况的结果。
提出的方法
- 将探索表述为在所引导的状态分布 dπ 上对凹函数 R(dπ) 的最大化。
- 将搜索空间表示为可行状态分布的凸集合 K,并将优化问题简化到该空间。
- 使用一个 Frank-Wolfe(条件梯度)风格的算法,逐步向策略混合加入策略并更新权重。
- 在每次迭代中,通过估计分布的梯度构造奖励 r_t,然后使用 ApproxPlan oracle 获得对 r_t 的近似最优策略。
- 使用 DensityEst oracle 估计当前状态分布,并考虑近似误差。
- 在 R 的光滑性假设下,给出保证:预言调用次数与 O(1/ε log 1/ε) 成比例,与状态空间大小无关。
实验结果
研究问题
- RQ1能否在未知 MDP 中对定义在状态访问分布上的内在目标进行高效优化?
- RQ2带有规划和密度估计预言的 Frank-Wolfe 风格方法是否为基于熵的目标提供多项式时间保证?
- RQ3为实现给定 R 的 ε 次 suboptimal,需要对规划和密度估计预言调用多少次?
- RQ4在表格化与未知 MDP 设置下,最大熵探索的样本和计算复杂度是多少?
主要发现
- 一个高效算法(Algorithm 1)在 ApproxPlan & DensityEst 调用 O(1/ε log 1/ε) 次后,使 R(d_{π_mix_T}) 接近最优解 ε。
- 将熵最大化描述为在诱导的状态分布上对凹函数进行最大化,并在分布空间中进行凸重构。
- 对分布的优化可用驻留策略来实现(通过 π′(a|s) = dπ(s,a)/dπ(s))。
- 在表格化的已知 MDP 设置下,方法可以使用标准规划方法在多项式时间内运行;在未知 MDP 设置下,样本构造(算法 2 和 3)在给定的剧集复杂度下提供多项式时间保证。
- 论文提供了一个平滑熵代理 H_σ,以实现平滑优化,并将其优化保证与真实熵相关。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。