Skip to main content
QUICK REVIEW

[论文解读] Disentangling the independently controllable factors of variation by interacting with the world

Valentin Thomas, Emmanuel Bengio|arXiv (Cornell University)|Feb 26, 2018
Neural Networks and Applications参考文献 14被引用 45
一句话总结

本文提出一种选择性目标,通过与环境交互、在没有外部奖励的情况下,通过与潜在因素相关联的学习策略,帮助智能体发现并解耦独立可控的变化因子。

ABSTRACT

It has been postulated that a good representation is one that disentangles the underlying explanatory factors of variation. However, it remains an open question what kind of training framework could potentially achieve that. Whereas most previous work focuses on the static setting (e.g., with images), we postulate that some of the causal factors could be discovered if the learner is allowed to interact with its environment. The agent can experiment with different actions and observe their effects. More specifically, we hypothesize that some of these factors correspond to aspects of the environment which are independently controllable, i.e., that there exists a policy and a learnable feature for each such aspect of the environment, such that this policy can yield changes in that feature with minimal changes to other features that explain the statistical variations in the observed data. We propose a specific objective function to find such factors, and verify experimentally that it can indeed disentangle independently controllable aspects of the environment without any extrinsic reward signal.

研究动机与目标

  • 阐明需要能够将RL及其基于RL建模中潜在变化因子解耦的表示的理由。
  • 提出一种基于交互的无监督目标,用于识别独立可控的环境因子。
  • 实现一个潜在空间的学习,在其中每个因子对应环境的一个可控方面。
  • 证明该方法能够在没有外部奖励的情况下,在潜在空间中支持基于模型的预测。

提出的方法

  • 将可控因子 phi 定义为通过 Phi(h,z) 从 h 与噪声 z 得到的嵌入,并将每个 phi 与一个旨在实现相应变化的策略 pi_phi 相关联。
  • 引入选择性目标 S(h, phi),其在观测状态变化 (h' - h) 与因子 phi 的对齐时给予奖励。
  • 使用变分表示将选择性与互信息下界 I(phi; h' | h) 联系起来,将目标锚定在潜在空间中的因果性。
  • 训练编码器 f 将观测映射到潜在状态 h,生成器 Phi(h,z) 产生 phi,以及策略 pi_phi,使用带有选择性奖励的策略梯度和可选的自编码器损失。
  • 可选地在潜在空间中加入模型基损失以鼓励短期预测的准确性:L_MB = ||h_{t+3} - T_theta(h_t, phi)||^2。

实验结果

研究问题

  • RQ1与世界交互是否能揭示独立可控的变化因子?
  • RQ2基于选择性的目标如何在没有外部奖励的情况下促进潜在表示的解耦?
  • RQ3学习得到的潜在因子在多大程度上支持潜在空间中的未来状态的模型预测?

主要发现

  • 该方法解耦了 MazeBase 环境中代理的±x和±y位置对应的四个定向变化因子。
  • 在同时使用重建损失和选择性损失训练后,潜在表示编码可恢复的空间坐标(代理的 x 和 y)。
  • 该方法支持多步潜在空间预测,表明潜在空间模型可以预测未来的潜在状态并解码回可观测空间。
  • 该框架表明可以在潜在空间中进行规划和策略推断,展示在降维空间中更易优化的潜力。
  • 作者报告了不稳定性与模式崩溃的倾向,表明独立性先验可能严格且难以优化,需要仔细调整若干超参数和训练不稳定性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。