[论文解读] Variational Intrinsic Control
本文提出了无监督强化学习方法,通过最大化选项与最终状态之间的互信息来发现大量内在选项;包含显式和隐式选项的表述,以及一个赋能估计。
In this paper we introduce a new unsupervised reinforcement learning method for discovering the set of intrinsic options available to an agent. This set is learned by maximizing the number of different states an agent can reliably reach, as measured by the mutual information between the set of options and option termination states. To this end, we instantiate two policy gradient based algorithms, one that creates an explicit embedding space of options and one that represents options implicitly. The algorithms also provide an explicit measure of empowerment in a given state that can be used by an empowerment maximizing agent. The algorithm scales well with function approximation and we demonstrate the applicability of the algorithm on a range of tasks.
研究动机与目标
- 将内在选项定义为具有终止状态的策略,以捕捉可控结果。
- 最大化所选选项与其最终状态之间的互信息,以鼓励多样且可控的结果。
- 开发两种基于策略梯度的算法(显式选项和隐式选项),并可随函数近似扩展。
- 提供一个体现代理在某一状态下控制能力的赋能估计,并可引导以赋能为驱动的代理。
提出的方法
- 将内在控制公式化为在 s_0 条件下最大化 I(Omega, s_f | s_0) ,使用变分下界 I^{VB}。
- 引入一个选项推断函数 q(Omega|s_0, s_f) 以对互信息加界。
- 算法1(显式选项):从 p^C 采样 Omega,按策略 pi(a|s, Omega) 前往 s_f,训练 q 以推断 Omega,内在奖励 r_I = log q - log p^C,更新 pi 以最大化 r_I,按 r_I 更新 p^C。
- 算法2(隐式选项):将动作作为选项,使用 pi^p 和学习到的 q;通过 RL 和监督更新最大化 R_I = sum_t log pi^q - log pi^p。
- 将赋能定义为对数比 r_I,并提供一个显式的赋能基线用于策略更新。
实验结果
研究问题
- RQ1在给定状态下,代理有哪些内在选项可用,以及如何高效地发现它们?
- RQ2在开放环境中,是否通过最大化选项与终止状态之间的互信息来生成可扩展的内在控制集?
- RQ3在赋能估计与学习动态方面,显式选项与隐式选项的表述有何差异?
- RQ4将框架与外在奖励结合,是否能使学习偏向高影响的选项?
- RQ5在随机环境中,闭环控制对正确的赋能估计是否必不可少?
主要发现
- 该方法能够在网格世界任务中发现导致不同终止状态的多样化内在选项。
- 在网格世界的赋能评估中,显式选项实验的平均赋能达到 6.0 nats (≈403 可到达状态)。
- 在 25x25 网格和基于 3D 图像的任务中的隐式选项实验,平均赋能约为 5.4 nats (≈221 可到达状态)。
- 推动方块的实验的赋能提升至 7.1 nats (≈1200 可到达状态)。
- 开环赋能度量在随机环境中明显表现不佳,而闭环选项能够恢复更高的赋能与稳健控制。
- 这些方法在函数近似方面具有可扩展性,并适用于部分可观测的任务。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。