QUICK REVIEW

[论文解读] One-Shot Generalization in Deep Generative Models

Danilo Jimenez Rezende, Shakir Mohamed|arXiv (Cornell University)|Mar 16, 2016

Generative Adversarial Networks and Image Synthesis参考文献 28被引用 75

一句话总结

本文提出了一类利用反馈和注意力机制实现零样本泛化的序列深度生成模型——仅通过观察一个样本即可生成新颖概念的多样化、逼真的变体。通过结合变分推断、空间变换器与分层潜在变量，该模型在图像生成任务中达到最先进性能，并在多个任务中展现出出色的零样本与少样本泛化能力。

ABSTRACT

Humans have an impressive ability to reason about new concepts and experiences from just a single example. In particular, humans have an ability for one-shot generalization: an ability to encounter a new concept, understand its structure, and then be able to generate compelling alternative variations of the concept. We develop machine learning systems with this important capacity by developing new deep generative models, models that combine the representational power of deep learning with the inferential power of Bayesian reasoning. We develop a class of sequential generative models that are built on the principles of feedback and attention. These two characteristics lead to generative models that are among the state-of-the art in density estimation and image generation. We demonstrate the one-shot generalization ability of our models using three tasks: unconditional sampling, generating new exemplars of a given concept, and generating new exemplars of a family of concepts. In all cases our models are able to generate compelling and diverse samples---having seen new examples just once---providing an important class of general-purpose models for one-shot machine learning.

研究动机与目标

开发能够实现零样本泛化的深度生成模型，模拟人类从极少数据中进行推理的能力。
通过引入注意力与反馈机制，解决深度生成模型中的数据效率挑战。
证明序列生成模型可在仅观察一次后，生成未见概念的多样化、合理变体。
将变分自编码器与深度生成模型的能力从标准密度估计扩展至类比推理与缺失数据补全。
提供一种通用、可扩展的概率推理框架，在诱导偏差最小化且低数据条件下具备强大泛化能力。

提出的方法

该模型在潜在变量组上采用序列生成过程，通过反馈机制实现对数据表征的迭代优化。
空间注意力机制通过可微分空间变换器实现，使模型在编码与解码过程中能够聚焦于图像的相关区域。
该架构采用分层变分推断框架，以近似复杂潜在变量的后验分布，从而实现从少量样本中进行稳健推理。
模型通过使用重参数化梯度的随机反向传播进行端到端训练，以最大化对数似然的变分下界（ELBO）。
反馈通过允许模型迭代地关注并重构输入的不同部分来实现，模拟了提升推理质量的“思考时间”。
多模态后验近似方法的使用使模型能够捕捉数据中多样化且解耦的变异因素。

实验结果

研究问题

RQ1深度生成模型能否在仅观察一个样本后，生成多样化且逼真的概念变体，实现零样本泛化？
RQ2在低数据条件下，注意力与反馈机制在提升深度生成模型泛化能力与生成质量方面发挥何种作用？
RQ3具有分层潜在变量的序列生成模型在图像生成与密度估计方面，相较于标准变分自编码器，能多大程度上实现性能超越？
RQ4此类模型是否能在无需在新数据上微调的情况下，执行类比推理与缺失数据补全？
RQ5在零样本泛化任务中，模型容量与数据效率之间存在何种权衡？

主要发现

仅观察一个样本后，该模型即可生成高度多样化且视觉上引人入胜的新概念样本，展现出强大的零样本泛化能力。
即使每类仅使用5个训练样本（45-5划分），模型在训练与测试对数似然之间仍保持较小差距，表明过拟合程度低且泛化能力强。
在新型字母生成任务中，模型成功从单个样本中推断出共享结构特征，并生成一致且合理的全新字符。
模型在无条件采样中表现优异，无需任何条件控制即可在多样化类别中生成逼真图像。
空间变换器的使用显著提升了图像生成与泛化性能，尤其在低数据条件下优势明显。
尽管泛化能力强大，该模型并未实现零样本学习，因其在推理阶段不更新参数——仅实现零样本推理。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。