[论文解读] Attend, Infer, Repeat: Fast Scene Understanding with Generative Models
AIR 引入了一种摊销化、循环注意力基础的推断框架,用于无监督场景解析,对象数量可变,通过端到端学习实现快速、可解释的二维和三维场景理解。
We present a framework for efficient inference in structured image models that explicitly reason about objects. We achieve this by performing probabilistic inference using a recurrent neural network that attends to scene elements and processes them one at a time. Crucially, the model itself learns to choose the appropriate number of inference steps. We use this scheme to learn to perform inference in partially specified 2D models (variable-sized variational auto-encoders) and fully specified 3D models (probabilistic renderers). We show that such models learn to identify multiple objects - counting, locating and classifying the elements of a scene - without any supervision, e.g., decomposing 3D images with various numbers of objects in a single forward pass of a neural network. We further show that the networks produce accurate inferences when compared to supervised counterparts, and that their structure leads to improved generalization.
研究动机与目标
- 动机并形式化一种贝叶斯、生成模型的方法来理解场景,将场景分解为对象。
- 开发一种高效的摊销推断机制,能够处理可变的对象数量和空间注意力。
- 证明结构化的 AIR 模型比非结构化的 VAE 具有可解释的表征和改进的泛化能力。
- 展示 AIR 适用于部分指定的 2D 模型和完全指定的 3D 渲染器。
- 突出推断相对于传统优化或有监督方法的速度和鲁棒性。
提出的方法
- 将 p_theta(x) 表述为对一个(未知数量的)对象的求和,具有每个对象的潜在变量 z^i 和一个出现变量 z_pres^i。
- 使用一种摊销的变分后验 q_phi(z, n | x),实现为一个迭代的循环网络,每步关注一个对象,当 z_pres 表示没有更多对象时可以终止。
- 通过对 theta 和 phi 最大化证据下界实现端到端训练,对连续变量使用重参数化,对离散变量使用似然比估计。
- 在二维设置中,用学习得到的形状编码 z_what 和姿态 z_where 表征每个对象;在三维设置中,用身份和姿势变量表征对象,并通过概率渲染器进行渲染。
- 结合空间变换器和注意力,提取面向对象的切片用于渐进重建和推断。
- 证明 AIR 能以无监督方式分解多对象场景,并进行快速的 3D 场景推断,给出计数、身份和姿态。
实验结果
研究问题
- RQ1一个循环的、基于注意力的推断网络是否能够在无监督条件下准确推断场景中的对象数量及其属性?
- RQ2将结构化先验和可变长度推断引入对泛化和重建质量相对于非结构化生成模型有何影响?
- RQ3AIR 能否对 2D 部分指定模型和完全指定的 3D 渲染器执行快速的摊销推断?
- RQ4学习到的表征是否在有限标注数据下支持有用的下游任务,如计数、定位和分类?
- RQ5与有监督或非摊销推断方法相比,AIR 在速度、鲁棒性和避免局部极小值方面表现如何?
主要发现
- AIR 能在无监督的方式下学会对场景要素进行计数、定位和分类。
- 迭代的、带注意力的推断网络在不再有对象时可以提前终止,从而实现可变长度计算。
- AIR 提供快速的前向推断,能够分解存在多对象和遮挡的场景,在泛化方面超过一些非结构化基线。
- 在二维实验中,AIR 对未见过的计数和配置表现出强泛化性,包括与 DRAW 和 DAIR 的比较。
- 在三维实验中,AIR 能从渲染的和真实的桌面场景推断计数、身份和姿态,往往比全监督方法更鲁棒,且优化难度较低。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。