Skip to main content
QUICK REVIEW

[论文解读] Towards a Definition of Disentangled Representations

Irina Higgins, David Amos|arXiv (Cornell University)|Dec 5, 2018
Generative Adversarial Networks and Image Synthesis参考文献 5被引用 294
一句话总结

本文以群论与对称性为基础正式定义了解耦表示:若一个表示分解为若干子空间,且每个子空间由世界对称群的一个子群独立作用进行变换,则该表示是解耦的。

ABSTRACT

How can intelligent agents solve a diverse set of tasks in a data-efficient manner? The disentangled representation learning approach posits that such an agent would benefit from separating out (disentangling) the underlying structure of the world into disjoint parts of its representation. However, there is no generally agreed-upon definition of disentangling, not least because it is unclear how to formalise the notion of world structure beyond toy datasets with a known ground truth generative process. Here we propose that a principled solution to characterising disentangled representations can be found by focusing on the transformation properties of the world. In particular, we suggest that those transformations that change only some properties of the underlying world state, while leaving all other properties invariant, are what gives exploitable structure to any kind of data. Similar ideas have already been successfully applied in physics, where the study of symmetry transformations has revolutionised the understanding of the world structure. By connecting symmetry transformations to vector representations using the formalism of group and representation theory we arrive at the first formal definition of disentangled representations. Our new definition is in agreement with many of the current intuitions about disentangling, while also providing principled resolutions to a number of previous points of contention. While this work focuses on formally defining disentangling - as opposed to solving the learning problem - we believe that the shift in perspective to studying data transformations can stimulate the development of better representation learning algorithms.

研究动机与目标

  • 以对称性变换为基础,提出解耦表示的有原则性、正式定义。
  • 将物理学中的群论与表示理论等概念桥接到机器学习表示上。
  • 阐明数据生成因子的含义,以及它们如何被表示和操作。

提出的方法

  • 引入对称性变换,作为在改变世界某些方面而保持其他方面不变的群作用。
  • 提出当一个向量表示分解为独立的子空间时即为解耦,其中每个子空间仅受世界对称群的一个子群作用。
  • 定义等变性:若存在对Z的G作用,使得f相对于世界W是G-等变的,则表示是解耦的。
  • 在分解 G = G1 × ... × Gn 以及对应将 Z 分解为 Z1 ⊕ ... ⊕ Zn 或 Z1 × ... × Zn 的框架下,对解耦表示进行形式化。
  • 讨论子群在各子空间上的作用为线性的线性解耦表示。
  • 提供一个实现性的网格世界示例以说明这些概念。

实验结果

研究问题

  • RQ1如何将对称性变换形式化以定义解耦表示?
  • RQ2世界对称群分解的哪些条件可以确保将变化因素分离到独立子空间的表示?
  • RQ3等变性如何与在保持对称结构的前提下将世界状态映射到表示空间的能力相关?
  • RQ4对给定数据集选择不同的子群分解有何影响?

主要发现

  • 提出基于群论与表示理论的首个有原则性的、正式的解耦表示定义。
  • 表明解耦表示对应于表示空间的分解,与世界对称群的分解一致。
  • 论证可能存在多种子群分解,但只有反映世界结构的自然分解才能产生有用的解耦。
  • 强调解耦表示可以实现组装性和变换中的潜在线性性,从而提高学习效率。
  • 阐明如何在基于对称性定义的背景下评估解耦性,而不仅仅依赖于纯经验直觉。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。