[论文解读] A Policy Gradient Method for Task-Agnostic Exploration
该论文提出MEPOL,一种无模型的策略梯度方法,通过使用k近邻估计来最大化有限时域轨迹所诱导的状态分布的熵。通过在不建模动力学或策略分布的情况下优化状态分布熵,MEPOL学习到一种任务无关的探索策略,从而在高维连续控制环境中实现高效的下游任务学习。
In a reward-free environment, what is a suitable intrinsic objective for an agent to pursue so that it can learn an optimal task-agnostic exploration policy? In this paper, we argue that the entropy of the state distribution induced by limited-horizon trajectories is a sensible target. Especially, we present a novel and practical policy-search algorithm, Maximum Entropy POLicy optimization (MEPOL), to learn a policy that maximizes a non-parametric, $k$-nearest neighbors estimate of the state distribution entropy. In contrast to known methods, MEPOL is completely model-free as it requires neither to estimate the state distribution of any policy nor to model transition dynamics. Then, we empirically show that MEPOL allows learning a maximum-entropy exploration policy in high-dimensional, continuous-control domains, and how this policy facilitates learning a variety of meaningful reward-based tasks downstream.
研究动机与目标
- 识别一种适合在无奖励环境中学得任务无关探索的内在目标。
- 解决在无法访问环境动力学或奖励函数的情况下设计探索策略的挑战。
- 开发一种在不显式建模转移动力学或策略分布的情况下最大化状态分布熵的方法。
- 通过在高维连续控制中学习多样化且具有探索性的策略,实现高效的下游任务学习。
提出的方法
- MEPOL使用非参数化的k近邻估计来近似由有限时域轨迹所诱导的状态分布的熵。
- 该方法基于此熵估计构建策略梯度目标,以直接优化探索行为。
- 它完全在无模型设置下运行,避免了对状态访问分布的估计或对转移动力学的建模。
- 策略通过将标准策略梯度技术应用于熵最大化目标来更新。
- 该算法被设计为在高维连续控制领域中具有可扩展性和实用性。
实验结果
研究问题
- RQ1通过最大化短时域轨迹所诱导的状态分布熵,能否实现有效的任务无关探索?
- RQ2是否可能在不建模转移动力学或估计策略分布的情况下学习此类探索策略?
- RQ3所得到的策略在连续控制中的多样化下游密集奖励任务上泛化能力如何?
- RQ4与现有基于内在好奇心或好奇心的探索方法相比,该方法在下游任务的样本效率方面是否表现更优?
主要发现
- MEPOL成功在高维连续控制环境中学习到最大熵的探索策略,且无需建模动力学。
- 该方法在下游任务学习中实现了最先进性能,展示了在多个任务上的强大样本效率。
- MEPOL所学习的策略表现出对状态空间的多样化且高效的覆盖,从而能够快速适应新任务。
- 实证结果表明,MEPOL在下游任务性能方面优于依赖模型基或好奇心基内在奖励的基线方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。