[论文解读] Curiosity Driven Exploration of Learned Disentangled Goal Spaces
该论文表明通过 beta-VAE 学习的解耦目标空间可以提升好奇驱动探索,实现模块化探索,匹配工程特征并有助于识别可独立控制的环境特征。
Intrinsically motivated goal exploration processes enable agents to autonomously sample goals to explore efficiently complex environments with high-dimensional continuous actions. They have been applied successfully to real world robots to discover repertoires of policies producing a wide diversity of effects. Often these algorithms relied on engineered goal spaces but it was recently shown that one can use deep representation learning algorithms to learn an adequate goal space in simple environments. However, in the case of more complex environments containing multiple objects or distractors, an efficient exploration requires that the structure of the goal space reflects the one of the environment. In this paper we show that using a disentangled goal space leads to better exploration performances than an entangled goal space. We further show that when the representation is disentangled, one can leverage it by sampling goals that maximize learning progress in a modular manner. Finally, we show that the measure of learning progress, used to drive curiosity-driven exploration, can be used simultaneously to discover abstract independently controllable features of the environment.
研究动机与目标
- 激发智能体在高维环境中进行终身学习,发现可控目标。
- 研究经过学习的解耦表示是否提高 IMGEPs 的探索效率。
- 检验模块化探索是否能利用解耦表示聚焦于可控对象并忽略干扰项。
- 评估学习进度信号是否能揭示抽象的、独立可控的特征。
- 评估解耦表示是否接近手工设计、工程化的目标空间的表现。
提出的方法
- 使用具模块化目标空间的 Intrinsically Motivated Goal Exploration Processes (IMGEPs)。
- 用从 beta-VAEs 或 VAEs 获得的学习表示替代手工设计的目标空间。
- 引入 Modular Unsupervised Goal-space Learning (MUGL) 从潜在变量中形成目标模块。
- 将模块定义为潜在变量的子集,并为每个模块采样目标以驱动探索。
- 使用基于学习进度的模块采样策略,聚焦于最具能力提升的目标。
- 将模块化、学习到的表示与随机参数探索和工程特征基线进行比较。
实验结果
研究问题
- RQ1与 entangled 表示或随机探索相比,解耦的学习目标表示是否提升 IMGEPs 的探索效率?
- RQ2使用学习的目标空间的模块化探索能否达到工程化、低维目标空间的表现?
- RQ3学习进度信号是否能够从学习表示中识别出独立可控的特征?
- RQ4解耦在探索过程中如何帮助忽略干扰项?
主要发现
- 解耦表示提高探索效率;使用解耦的 beta-VAE 目标的 IMGEPs 在更少的实验中访问更多状态,相较于 entangled 表示。
- 使用解耦表示的模块化探索在性能上与带有工程特征的模块化探索相匹配或接近,而 entangled 表示则阻碍性能。
- 解耦表示使智能体能够将学习进度聚焦于对应可控特征的模块(例如球的位置),并忽略干扰项。
- 来自模块化设置的学习进度信号有助于识别由被动表示学习随后主动探索产生的抽象、独立可控特征。
- 仅使用 VAEs(不进行解耦)无法提供实现同等高效探索所需的结构化潜在空间。
- 该方法表明解耦与模块化目标空间能够在高维感知环境中实现高效、可扩展的探索。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。