QUICK REVIEW

[论文解读] Multi-Object Representation Learning with Iterative Variational Inference

Klaus Greff, Raphaël Lopez Kaufman|arXiv (Cornell University)|Mar 1, 2019

Domain Adaptation and Few-Shot Learning参考文献 33被引用 176

一句话总结

IODINE 通过迭代变分细化实现无监督的多对象场景分解，提供对象友好的表征、修补，并推广到更多对象及未见的特征组合。

ABSTRACT

Human perception is structured around objects which form the basis for our higher-level cognition and impressive systematic generalization abilities. Yet most work on representation learning focuses on feature learning without even considering multiple objects, or treats segmentation as an (often supervised) preprocessing step. Instead, we argue for the importance of learning to segment and represent objects jointly. We demonstrate that, starting from the simple assumption that a scene is composed of multiple entities, it is possible to learn to segment images into interpretable objects with disentangled representations. Our method learns -- without supervision -- to inpaint occluded parts, and extrapolates to scenes with more objects and to unseen objects with novel feature combinations. We also show that, due to the use of iterative variational inference, our system is able to learn multi-modal posteriors for ambiguous inputs and extends naturally to sequences.

研究动机与目标

促使学习表示，以联合对多个对象进行分割和表征，而非将其作为预处理步骤。
提出一个多槽位的空间混合模型，将场景编码为独立的对象槽位，具备共享解码。
开发一个迭代的摊销推理过程，在无监督的情况下推断对象级潜在变量与分割。
展示无监督分割、遮挡部分的修补，以及对未见对象数量和特征组合的泛化。

提出的方法

用 K 个潜在对象向量 z_k 表示每个场景，它们通过带有每槽掩码 m_k 的空间高斯混合模型共同生成图像。
将每个 z_k 解码为像素级外观 μ_k 和掩码对数概率，并通过 softmax 在槽之间对掩码进行归一化，形成整体似然 p(x|z)。
使用摊销迭代细化网络 f_φ，在 T 次迭代中更新后验参数 λ_k，采用加法更新，并包含 ELBO 梯度等辅助输入。
通过展开 T 次细化步骤并对迭代中的 ELBO 项加权求和进行端到端训练，以稳定学习。
引入广播解码器，以促使位置信息与其他特征的解耦，并对可互换对象强化槽位对称性。

实验结果

研究问题

RQ1一个多槽位的无监督模型是否能够将场景分割成可解释的对象，并学习它们的解耦特征？
RQ2迭代变分推理是否能够以全数据驱动的方式处理遮挡、多模态以及对称性不变的对象表示？
RQ3模型在训练分布之外的场景（更多对象或未见的对象-特征组合）上的泛化表现如何？
RQ4架构选择（如空间广播解码器）和输入信号对分割质量和解耦性的影响如何？
RQ5学习到的对象表示是否能够支撑下游任务，如通过线性映射预测对象属性？

主要发现

模型	CLEVR6 ARI	M-dSprites ARI	M-dSprites bin ARI	Shapes ARI	Tetris ARI
IODINE	0.988±0.000	0.767±0.056	0.648±0.172	0.910±0.119	0.992±0.004
R-NEM	*	*	0.685±0.017	0.776±0.019	*
MONet	0.962±0.006	0.904±0.008	*	*	*

IODINE 在 CLEVR6 (ARI ~0.99) 和 Tetris 上实现近似完美的实例分割，在 Multi-dSprites 上实现强分割（ARI ~0.77）。
MONet 在 CLEVR6 上的 ARI ~0.96、在 Multi-dSprites 上的 ARI ~0.90，在某些设置下提供了有竞争力的基线。
对象潜在表征使从每个对象潜在变量线性可预测地获得真实因素（颜色、位置、形状、大小）。
当对象通过各自的槽位表示时，解耦性得到提升；标准 VAE 会在多对象之间纠缠因素。
模型在训练中看到的槽位数量之外以及在具有更多对象的场景上具有泛化能力，在许多情况下保持分割质量。
迭代细化由于采样和槽位交互，导致多模态后验自然而然出现，在不确定性下实现多稳定的分割。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。