Skip to main content
QUICK REVIEW

[论文解读] Stacked Capsule Autoencoders

Adam R. Kosiorek, Sara Sabour|arXiv (Cornell University)|Jun 17, 2019
Generative Adversarial Networks and Image Synthesis参考文献 36被引用 36
一句话总结

堆叠胶囊自编码器(scae)在无监督情况下学习对象部件及其视点,将部件组织为对象胶囊,以在 MNIST 与 SVHN 上实现最先进的无监督分类。

ABSTRACT

Objects are composed of a set of geometrically organized parts. We introduce an unsupervised capsule autoencoder (SCAE), which explicitly uses geometric relationships between parts to reason about objects. Since these relationships do not depend on the viewpoint, our model is robust to viewpoint changes. SCAE consists of two stages. In the first stage, the model predicts presences and poses of part templates directly from the image and tries to reconstruct the image by appropriately arranging the templates. In the second stage, SCAE predicts parameters of a few object capsules, which are then used to reconstruct part poses. Inference in this model is amortized and performed by off-the-shelf neural encoders, unlike in previous capsule networks. We find that object capsule presences are highly informative of the object class, which leads to state-of-the-art results for unsupervised classification on SVHN (55%) and MNIST (98.7%). The code is available at https://github.com/google-research/google-research/tree/master/stacked_capsule_autoencoders

研究动机与目标

  • 推动对结构化对象表示的无监督学习,能够对视点变化具有鲁棒性。
  • 开发一个两阶段架构(部件胶囊自编码器和对象胶囊自编码器)以分割部件并将其组装成对象。
  • 利用部件与对象之间的几何关系以提升无监督分类与可解释性。

提出的方法

  • 引入星座自编码器(ccae),将一组二维点建模为经相似变换变换的星座。
  • 开发部件胶囊自编码器(pcae),从图像中推断部件姿态和存在性,并通过仿射变换的模板进行重建。
  • 将 pcae 与对象胶囊自编码器(ocae)堆叠形成 scae;对象胶囊预测部件姿态并混合预测以进行重建。
  • 将图像建模为空间高斯混合,其分量来自变换模板和部件姿态。
  • 结合稀疏性和基于熵的损失,鼓励在不同样本中胶囊的多样化、专业化使用。

实验结果

研究问题

  • RQ1部件胶囊和对象胶囊的无监督训练是否能从图像中发现有意义的对象结构?
  • RQ2对象胶囊的存在性是否为无监督类别发现提供有信息量的信号?
  • RQ3几何变换与部件–视图关系如何实现视点不变的推理?
  • RQ4稀疏性和编码器选择对无监督分类与泛化有何影响?

主要发现

  • scae 在 MNIST(线性匹配为 98.7%;线性预测为 99.0%)和 SVHN(线性匹配为 55.33%;线性预测为 67.27%)上实现了无监督分类的最先进水平。
  • 对象胶囊存在向量形成与类别标签相关的紧密簇群,使无监督的类别发现成为可能。
  • 消融研究显示稀疏性损失、噪声注入、变换类型、部件编码器选择以及用于对象胶囊编码的 Set Transformer 的贡献。
  • 在 MNIST 上的无监督聚类性能通过视点泛化任务(AffNIST)在某一设定中提升至 92.2%。
  • 使用两阶段架构(pcae + ocae)以及基于 ccae 的预训练,能够实现从图像的无监督分割和对象发现。
  • 由于固定模板和背景建模的限制,该方法在 CIFAR-10 上表现不佳,提示存在更深层次层级或输入相关模板的潜力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。