[论文解读] How to Train Your Energy-Based Models
本文提供了一个友好的培训能量基模型(EBMs)的教程,涵盖三大方法:带MCMC的最大似然、分数匹配(包括 DSM 和 SSM 变体)、以及噪声对比估计,并且揭示它们之间的联系。
Energy-Based Models (EBMs), also known as non-normalized probabilistic models, specify probability density or mass functions up to an unknown normalizing constant. Unlike most other probabilistic models, EBMs do not place a restriction on the tractability of the normalizing constant, thus are more flexible to parameterize and can model a more expressive family of probability distributions. However, the unknown normalizing constant of EBMs makes training particularly difficult. Our goal is to provide a friendly introduction to modern approaches for EBM training. We start by explaining maximum likelihood training with Markov chain Monte Carlo (MCMC), and proceed to elaborate on MCMC-free approaches, including Score Matching (SM) and Noise Constrastive Estimation (NCE). We highlight theoretical connections among these three approaches, and end with a brief survey on alternative training methods, which are still under active research. Our tutorial is targeted at an audience with basic understanding of generative models who want to apply EBMs or start a research project in this direction.
研究动机与目标
- 解释为何 EBMs 虽然灵活但由于未知的归一化常数 Z_theta 而难以训练。
- 提出 EBMs 的三大训练范式:带 MCMC 的最大似然、分数匹配、和噪声对比估计。
- 解释这些方法之间的理论联系并概述其他活跃的研究方向。
提出的方法
- 推导 EBM 的 MLE 梯度,并展示如何通过从 p_theta(x) 采样获得无偏的蒙特卡洛估计。
- 介绍 Langevin MCMC 及其采样变体,以及实际技巧如 CD 和持续 CD。
- 呈现分数匹配及其费舍尔距离形式,包括 DSM 和 SSM 变体以应对非理想数据的支持。
- 展示去噪和切片分数匹配如何规避不可解的二阶导数并提升可扩展性。
- 通过对比含噪分布来解释噪声对比估计(NCE),并解释 Z_theta 作为可学习的标量。
实验结果
研究问题
- RQ1当归一化常数 Z_theta 不可解时,如何有效地训练 EBMs?
- RQ2MLE with MCMC、Score Matching 与 Noise Contrastive Estimation 在 EBM 训练中如何相互关系并互补?
- RQ3哪些实际技巧(如 CD、Langevin 动力学、DSM、SSM、NCE)能够实现可扩展的 EBM 学习?
- RQ4分数基生成建模方法如何利用分数网络和多尺度噪声来实现高质量采样?
主要发现
- MLE with MCMC 通过使用来自 p_theta(x) 的样本对梯度进行无偏估计,从而实现基于似然的训练。
- Langevin MCMC 及相关方法为 EBMs 提供实用的采样,并将其与 CD 在潜在偏差方面联系起来。
- Score Matching 及其变体(DSM、SSM)提供避免显式 Z_theta 的替代训练目标,但在一致性与计算成本之间存在权衡。
- SSM 为 DSM 提供了一致的替代方案,具有线性成本的二阶导数项,使高维数据的可扩展性培训成为可能。
- 基于分数的生成建模通过噪声条件化在跨尺度上共同建模分数,从而改善图像和音频的采样质量。
- NCE 通过对比学习对抗一个已知的噪声分布提供另一条途径,其中 Z_theta 被视为可学习的标量。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。