[论文解读] Improved Contrastive Divergence Training of Energy Based Models
本文通过严格估计此前被忽略的梯度项,提出了一种简单但有效的对比发散训练改进方法,用于能量模型。该方法稳定了训练过程,并使得自注意力机制等现代深度学习组件得以应用。该方法利用自动微分与最近邻熵估计器高效计算该梯度项,从而在图像生成、分布外检测和组合生成任务中实现了更高质量的样本、更强的鲁棒性与更高的稳定性,且无需引入新目标函数或复杂架构。
Contrastive divergence is a popular method of training energy-based models, but is known to have difficulties with training stability. We propose an adaptation to improve contrastive divergence training by scrutinizing a gradient term that is difficult to calculate and is often left out for convenience. We show that this gradient term is numerically significant and in practice is important to avoid training instabilities, while being tractable to estimate. We further highlight how data augmentation and multi-scale processing can be used to improve model robustness and generation quality. Finally, we empirically evaluate stability of model architectures and show improved performance on a host of benchmarks and use cases,such as image generation, OOD detection, and compositional generation.
研究动机与目标
- 解决能量模型中对比发散训练的不稳定性问题,该问题限制了现代深度学习组件的应用。
- 证明对比发散目标函数中此前被忽略的梯度项在数值上具有显著影响,且对训练稳定性至关重要。
- 表明该梯度项可通过高效估计方法实现,从而支持在能量模型训练中使用自注意力机制、层归一化等现代组件,而无需谱归一化或梯度裁剪。
- 通过数据增强与多尺度能量评估,改善MCMC混合效率与样本多样性。
- 在图像生成、分布外检测与组合生成等基准任务中,通过实证验证该方法的有效性。
提出的方法
- 该方法估计对比发散目标函数中因能量函数更新时MCMC采样过程变化而产生的此前被忽略的梯度项。
- 利用自动微分计算能量函数的梯度,并使用最近邻熵估计器近似MCMC样本的熵,从而实现低方差、可计算的完整梯度估计。
- 应用数据增强作为语义上有意义的扰动,通过生成多样化的负样本,促进MCMC链更好地混合。
- 引入多尺度能量评估机制,即在采样过程中以多个分辨率(粗与细)计算能量,以提升生成图像的空间一致性。
- 该方法与标准能量模型训练完全兼容,无需辅助网络、额外目标函数或架构修改。
- 该方法端到端应用于能量模型训练,在CelebA-HQ与LSUN Bedroom等基准数据集上实现了更高的训练稳定性与样本质量。
实验结果
研究问题
- RQ1对比发散训练中被忽略的梯度项在数值上是否显著,且其估计是否对训练稳定性至关重要?
- RQ2该梯度项能否在不引入高方差估计器或辅助网络的前提下实现高效估计?
- RQ3包含该梯度项是否允许在能量模型训练中使用自注意力机制与层归一化等现代深度学习组件?
- RQ4数据增强与多尺度能量评估是否能改善MCMC混合效率与样本多样性?
- RQ5改进的训练稳定性是否在多个基准上带来了可测量的生成质量与鲁棒性提升?
主要发现
- 被忽略的梯度项对整体训练梯度有显著贡献,是避免训练不稳定性(尤其是在使用深层架构时)的关键因素。
- 通过自动微分与最近邻熵估计器估计该梯度项,既可行又高效,可在无需谱归一化或梯度裁剪的情况下实现稳定训练。
- 该方法使能量模型架构中可安全使用自注意力机制与层归一化,这些组件此前因训练不稳定性而被避免。
- 作为语义上有意义扰动的数据增强显著提升了MCMC混合效率与样本多样性,从而生成更逼真的样本。
- 多尺度能量评估在不修改MCMC过程的前提下,提升了生成图像的空间一致性,从而获得更高质量的样本。
- 在CelebA-HQ数据集上,该模型在组合生成任务中的属性恢复准确率相比IGEBM与JVAE基线模型最高提升了15%。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。