[论文解读] Deep Generative Stochastic Networks Trainable by Backprop
本文提出了生成随机网络(GSNs),一种通过学习马尔可夫链的转移算子而非直接建模数据分布来训练深度生成模型的框架。通过使用去噪自编码器风格的反向传播训练,GSNs 通过近似单峰条件分布简化了密度估计,实现了无需计算难以处理的归一化常数的高效训练,并在 MNIST 和 TFD 数据集上达到了最先进的对数似然界限。
We introduce a novel training principle for probabilistic models that is an alternative to maximum likelihood. The proposed Generative Stochastic Networks (GSN) framework is based on learning the transition operator of a Markov chain whose stationary distribution estimates the data distribution. The transition distribution of the Markov chain is conditional on the previous state, generally involving a small move, so this conditional distribution has fewer dominant modes, being unimodal in the limit of small moves. Thus, it is easier to learn because it is easier to approximate its partition function, more like learning to perform supervised function approximation, with gradients that can be obtained by backprop. We provide theorems that generalize recent work on the probabilistic interpretation of denoising autoencoders and obtain along the way an interesting justification for dependency networks and generalized pseudolikelihood, along with a definition of an appropriate joint distribution and sampling mechanism even when the conditionals are not consistent. GSNs can be used with missing inputs and can be used to sample subsets of variables given the rest. We validate these theoretical results with experiments on two image datasets using an architecture that mimics the Deep Boltzmann Machine Gibbs sampler but allows training to proceed with simple backprop, without the need for layerwise pretraining.
研究动机与目标
- 为了解决概率模型中由于难以处理的归一化常数导致的深度无监督模型训练难题。
- 开发一种将无监督密度估计转化为类似监督学习函数逼近问题的训练框架。
- 通过使用标准反向传播实现深度生成模型的端到端训练,避免对层叠预训练或 MCMC 采样的依赖。
- 通过在马尔可夫链状态中引入潜在变量,提升模型混合能力和表征学习能力。
- 在图像数据集上验证该框架,性能与现有模型(如 RBMs 和 DBMs)相当或更优。
提出的方法
- GSN 框架通过学习马尔可夫链的转移算子来建模数据分布,其中每一步都涉及从条件分布 $ P_{\theta}(X|\tilde{X}) $ 中采样,$ \tilde{X} $ 是 $ X $ 的损坏版本。
- 该方法采用类似去噪自编码器的机制:将输入 $ X $ 损坏为 $ \tilde{X} $,模型学习从 $ \tilde{X} $ 重建 $ X $,从而有效学习一个比真实数据分布更简单的条件分布(单峰)。
- 该框架可推广至包含潜在变量 $ H $ 的情形,使马尔可夫链状态同时包含观测变量 $ X $ 和潜在变量 $ H $,从而实现更丰富的表征和更易的混合。
- 训练通过反向传播在重建对数似然目标上进行,将去噪任务视为监督学习问题,梯度可高效计算。
- 采用带学习率衰减和动量的随机梯度下降优化方法,训练过程中无需层叠预训练。
- 通过在生成样本上使用 Parzen 密度估计器评估模型质量,提供真实对数似然的下界。
实验结果
研究问题
- RQ1我们能否通过学习马尔可夫链转移算子,避免计算难以处理的归一化常数,从而训练深度生成模型?
- RQ2学习一个比真实数据分布 $ P(X) $ 更简单的去噪条件分布 $ P_{\theta}(X|\tilde{X}) $,是否能通过反向传播实现更有效的训练?
- RQ3在马尔可夫链状态中引入潜在变量 $ H $,是否能提升模型的表征能力与混合效率?
- RQ4GSN 在对数似然和样本质量方面与现有模型(如 RBMs、DBMs 和 DBNs)相比表现如何?
- RQ5GSN 是否能通过标准反向传播实现端到端训练,并在图像数据集上实现快速收敛和良好的泛化性能?
主要发现
- 两层 GSN 在 MNIST 测试集上实现了 214 ± 1.1 的 Parzen 对数似然下界,显著优于单层去噪自编码器(−152 ± 2.2),并达到或超过 DBN 和 DBM 等更深层模型的性能。
- 两层 GSN 在性能上优于两隐藏层 DBN(138 ± 2)和三隐藏层 DBM(32 ± 2),表明其在样本质量和似然估计方面具有优势。
- GSN 在 TFD 数据集上实现了 1890 ± 29 的 Parzen 对数似然下界,与两隐藏层 DBN(1908 ± 66)相当,表明其在另一类图像分布上也表现出色。
- GSN 生成的样本表现出快速混合和高清晰度,视觉质量在 25 个周期内迅速提升,表明收敛速度快。
- 条件采样实验表明,GSN 能够随机补全缺失输入(如图像的左半部分),生成与训练条件分布一致的合理补全结果。
- 该框架实现了无需层叠预训练和显式 MCMC 采样的训练,完全依赖反向传播实现端到端优化。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。