[论文解读] Neural Expectation Maximization
神经期望最大化(N-EM)学习在无监督、可微分的 EM 框架中对图像中的多个对象进行聚类和表示,扩展到通过 RNN-EM 的序列数据。
Many real world tasks such as reasoning and physical interaction require identification and manipulation of conceptual entities. A first step towards solving these tasks is the automated discovery of distributed symbol-like representations. In this paper, we explicitly formalize this problem as inference in a spatial mixture model where each component is parametrized by a neural network. Based on the Expectation Maximization framework we then derive a differentiable clustering method that simultaneously learns how to group and represent individual entities. We evaluate our method on the (sequential) perceptual grouping task and find that it is able to accurately recover the constituent objects. We demonstrate that the learned representations are useful for next-step prediction.
研究动机与目标
- 激励为多个对象学习分离、分布式表示以解决绑定问题。
- 将对象表示形式化为在空间混合模型中的由神经网络参数化的组件。
- 推导一个可微分的 EM 程序,将像素聚类到对象并学习对象特定表示。
- 将该框架扩展到序列数据以实现下一个步骤的预测并改进分组。
- 提供无标注分割的无监督训练,并在合成数据集上进行评估。
提出的方法
- 将图像建模为一个 K 组件的空间混合,其中每个分量的参数 theta_k 通过可微分的 f_phi 映射到像素似然 psi_i,k。
- 基于当前的 psi 和 x 计算 E 步以获得软像素分配 gamma_i,k。
- 通过对 Q 进行梯度上升并使用可微分的 f_phi 更新 theta_k 来执行 M 步(方程 4)。
- 展开 EM 的迭代以创建一个端到端可微分的聚类过程(N-EM),通过时序反向传播训练。
- 通过用一个学习的递归网络替换 M 步来实现 RNN-EM,以处理序列数据并改善分组。
- 使用两项损失进行训练:按 gamma 加权的簇内重构,以及约束未分配像素的簇间 KL 惩罚的簇间项。
实验结果
研究问题
- RQ1无监督神经网络是否能够在空间混合模型中发现并将多个对象表示为独立、解耦的组件?
- RQ2可微分的 EM 是否允许端到端训练,产生对下一步预测有用的面向对象的表示?
- RQ3该方法扩展到序列数据的能力如何,并且随时间提供鲁棒的感知分组?
主要发现
- 在对象分离的静态分组任务中,N-EM 和 RNN-EM 能恢复单个形状。
- RNN-EM 通常比 N-EM 在分组性能(AMI)方面表现更强,尤其在遮挡情况下。
- 在Flying形状任务中,即使对象增多,AMI 得分仍然很高,并对未见过的序列长度和对象数量具备良好的泛化。
- 下一个步骤的预测受益于多对象表示,在存在对象时,RNN-EM 的预测误差低于单组件的递归自编码器。
- 在 Flying MNIST 上,RNN-EM 在测试集上有两位数字时的 AMI 高达 0.917±0.005,且能在没有再训练的情况下泛化到三位数字。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。