[论文解读] What Regularized Auto-Encoders Learn from the Data Generating Distribution
本文表明,正则化自编码器,特别是去噪和收缩变体,通过最小化正则化重建误差,学习数据生成分布的得分函数(对数密度的梯度)。其关键贡献在于展示了该训练准则隐式估计了局部密度结构——特别是得分和海森矩阵——而无需显式能量函数,从而实现了从估计分布中进行近似MCMC采样。
What do auto-encoders learn about the underlying data generating distribution? Recent work suggests that some auto-encoder variants do a good job of capturing the local manifold structure of data. This paper clarifies some of these previous observations by showing that minimizing a particular form of regularized reconstruction error yields a reconstruction function that locally characterizes the shape of the data generating density. We show that the auto-encoder captures the score (derivative of the log-density with respect to the input). It contradicts previous interpretations of reconstruction error as an energy function. Unlike previous results, the theorems provided here are completely generic and do not depend on the parametrization of the auto-encoder: they show what the auto-encoder would tend to if given enough capacity and examples. These results are for a contractive training criterion we show to be similar to the denoising auto-encoder training criterion with small corruption noise, but with contraction applied on the whole reconstruction function rather than just encoder. Similarly to score matching, one can consider the proposed training criterion as a convenient alternative to maximum likelihood because it does not involve a partition function. Finally, we show how an approximate Metropolis-Hastings MCMC can be setup to recover samples from the estimated distribution, and this is confirmed in sampling experiments.
研究动机与目标
- 阐明正则化自编码器对底层数据生成分布的学习内容。
- 建立收缩自编码器与去噪自编码器的训练准则与局部密度特性(如得分和海森矩阵)估计之间的理论联系。
- 证明最小化正则化重建误差可作为无监督学习中最大似然的替代方法,避免计算分区函数的需求。
- 展示如何利用估计的得分构建近似梅特罗波利斯-黑斯廷斯MCMC,以从学习到的模型中进行采样。
提出的方法
- 本文分析了一种对完整重建函数而非仅编码器应用正则化的收缩训练准则,并证明其等价于使用小高斯噪声的去噪自编码器训练。
- 证明最小化该准则可使重建函数估计数据生成密度的得分(对数密度的导数)与海森矩阵。
- 该方法依赖于在充分容量和数据条件下的渐近分析,证明其收敛至真实得分函数,且不依赖于自编码器的参数化形式。
- 提出一种近似梅特罗波利斯-黑斯廷斯MCMC算法,其中能量差值通过预测得分进行估计,从而实现从学习分布中的采样。
- 该方法避免了显式计算分区函数,与得分匹配类似,即使不存在解析能量函数时也适用。
- 在人工数据集上的实验验证了该方法,结果显示通过MCMC生成的样本在二维投影中与训练数据分布高度一致。
实验结果
研究问题
- RQ1正则化自编码器具体学习了数据生成分布的哪些方面?
- RQ2最小化正则化重建误差与估计对数密度的得分和海森矩阵之间有何关系?
- RQ3自编码器的重建函数是否可被解释为估计局部均值与密度梯度,而非能量函数?
- RQ4是否可利用估计的得分对学习到的模型执行近似MCMC采样?
- RQ5与最大似然和得分匹配相比,该方法在训练效率和分布估计方面表现如何?
主要发现
- 最小化正则化重建误差可使重建函数估计数据生成分布的得分(对数密度的一阶导数)。
- 该方法还可估计海森矩阵(对数密度的二阶导数),从而捕捉密度的局部曲率。
- 该训练准则等价于使用小高斯噪声的去噪自编码器训练,但收缩正则化作用于完整的重建函数。
- 估计的得分可实现近似梅特罗波利斯-黑斯廷斯MCMC采样,实验表明其能成功恢复接近真实数据分布的样本。
- 只要具备足够的容量和训练数据,该结果在一般情况下均成立,与自编码器的参数化形式无关。
- 该方法避免了分区函数的计算需求,使其成为隐式密度估计中最大似然的可行替代方案。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。