Skip to main content
QUICK REVIEW

[论文解读] SCAN: Learning Hierarchical Compositional Visual Concepts

Irina Higgins, Nicolas Sonnerat|arXiv (Cornell University)|Jul 11, 2017
Genomics and Phylogenetic Studies参考文献 25被引用 57
一句话总结

SCAN 学习基于解耦原语的分层、组成性视觉概念,这些概念由少量符号-图像对支撑,从而在训练数据之外实现双向和可重组的多模态推理。

ABSTRACT

The seemingly infinite diversity of the natural world arises from a relatively small set of coherent rules, such as the laws of physics or chemistry. We conjecture that these rules give rise to regularities that can be discovered through primarily unsupervised experiences and represented as abstract concepts. If such representations are compositional and hierarchical, they can be recombined into an exponentially large set of new concepts. This paper describes SCAN (Symbol-Concept Association Network), a new framework for learning such abstractions in the visual domain. SCAN learns concepts through fast symbol association, grounding them in disentangled visual primitives that are discovered in an unsupervised manner. Unlike state of the art multimodal generative model baselines, our approach requires very few pairings between symbols and images and makes no assumptions about the form of symbol representations. Once trained, SCAN is capable of multimodal bi-directional inference, generating a diverse set of image samples from symbolic descriptions and vice versa. It also allows for traversal and manipulation of the implicit hierarchy of visual concepts through symbolic instructions and learnt logical recombination operations. Such manipulations enable SCAN to break away from its training data distribution and imagine novel visual concepts through symbolically instructed recombination of previously learnt concepts.

研究动机与目标

  • 提出一种通过无监督的解耦表征学习抽象、可组合的视觉概念的框架。
  • 在一小组符号-图像对中对概念进行锚定,而不对符号编码作严格假设。
  • 实现图像与符号之间的双向推理(img2sym 和 sym2img),并产生多样化输出。
  • 引入重组算子(AND、IN COMMON、IGNORE)以在概念层级中导航并扩展。
  • 展示样本效率以及在训练数据之外推断新概念的能力。

提出的方法

  • 使用 beta-VAE(结合基于 DAE 的高级特征空间)来学习可由 SCAN 支撑的解耦视觉原始特征。
  • 通过最小化视觉原始特征空间与概念空间之间的 forward KL 来对 SCAN 概念进行锚定,同时将不相关因素作为先验保持。
  • 将概念表示为相关因素的子集,从而实现分层抽象和符号锚定。
  • 训练一个重组模块(条件卷积),在 AND、IN COMMON、IGNORE 操作符下融合两个概念以生成新的概念节点。
  • 实现双向推理:sym2img(从符号生成图像)与 img2sym(用符号描述图像)。
  • 使用 DeepMind Lab 数据和未公开概念进行评估,衡量准确性(img2sym)及多样性(无关因素的方差)。

实验结果

研究问题

  • RQ1在有限的符号-图像监督下,SCAN 是否能学习到有锚定的、分层的概念?
  • RQ2基于 forward KL 的锚定抽象是否能实现多样化、准确的 sym2img 和 img2sym 推断?
  • RQ3学得的重组算子是否能够在隐含概念层次中导航并扩展到新概念?
  • RQ4在准确性和多样性方面,尤其在未见概念上的表现,SCAN 相较于基线如何?
  • RQ5在测试时对概念进行重组时,SCAN 是否维持性能?

主要发现

  • SCAN 在 sym2img 生成与 img2sym 描述方面的准确性和多样性均优于基线。
  • 解耦的视觉原始特征锚定了概念空间;forward KL 锚定使对不相关因素的广义抽象成为可能。
  • 重组算子能够达到训练期间未见的新概念,保持准确性与多样性。
  • SCAN 结合重组模块在测试算子上的性能保持,与基线不同。
  • 部分解耦水平(beta)同时影响准确性和多样性,通常更高的解耦会提高两者。
  • JMVAE 最接近 SCAN,但在没有 SCAN 的结构化潜在空间时更容易发生模式崩溃。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。