Skip to main content
QUICK REVIEW

[论文解读] Implicit Generation and Generalization in Energy-Based Models

Yilun Du, Igor Mordatch|arXiv (Cornell University)|Mar 20, 2019
Anomaly Detection Techniques and Applications参考文献 65被引用 112
一句话总结

本文使用MCMC采样训练连续能量基模型(EBMs)以生成高质量图像,展示模式覆盖和鲁棒性,并展示EBMs在OOD检测、对抗鲁棒性、持续学习和轨迹预测方面的适用性。

ABSTRACT

Energy based models (EBMs) are appealing due to their generality and simplicity in likelihood modeling, but have been traditionally difficult to train. We present techniques to scale MCMC based EBM training on continuous neural networks, and we show its success on the high-dimensional data domains of ImageNet32x32, ImageNet128x128, CIFAR-10, and robotic hand trajectories, achieving better samples than other likelihood models and nearing the performance of contemporary GAN approaches, while covering all modes of the data. We highlight some unique capabilities of implicit generation such as compositionality and corrupt image reconstruction and inpainting. Finally, we show that EBMs are useful models across a wide variety of tasks, achieving state-of-the-art out-of-distribution classification, adversarially robust classification, state-of-the-art continual online class learning, and coherent long term predicted trajectory rollouts.

研究动机与目标

  • 为高维数据上的能量基模型(EBMs)设计并发展可扩展的训练技术。
  • 展示通过MCMC(Langevin动力学)进行隐式样本生成以及使用重播缓冲区以改善混合性。
  • 展示EBM的独特属性,如组合性、去污染化、以及修复缺失信息(inpainting)。
  • 在图像生成、鲁棒性、OOD检测、轨迹建模和在线持续学习等方面评估EBMs。

提出的方法

  • 将参数化的神经网络能量函数E_theta(x)用于建模数据,使p_theta(x) ∝ exp(-E_theta(x))。
  • 使用Langevin动力学从隐式分布q_theta中抽样,初始从噪声或样本重放缓冲区获取。
  • 以正则化的综合目标优化梯度,使数据上的能量下降、模型样本上的能量上升。
  • 应用谱归一化和L2正则化以稳定取样并确保配分函数可积性。
  • 维持样本重放缓冲区以改善混合性并为Langevin更新提供多样化的初始条件。
  • 采用以数据样本和生成的负样本为对象的训练循环,使用Adam优化器更新theta。

实验结果

研究问题

  • RQ1连续EBMs在使用梯度-MCMC训练时,是否能扩展到高维数据并产生有竞争力的样本?
  • RQ2在使用隐式采样时,EBMs是否表现出模式覆盖、去污染化的修复以及成分化的生成?
  • RQ3EBMs是否对对抗扰动鲁棒,且能否进行OOD检测和持续学习?
  • RQ4EBMs能否建模复杂轨迹并支持在线持续学习任务?
  • RQ5EBMs在潜在因子上在多大程度上能展示成分性和零-shot跨乘积泛化?

主要发现

模型Inception*FID
PixelCNN (Van Oord et al., 2016)4.6065.93
PixelIQN (Ostrovski et al., 2018)5.2949.46
EBM (single)6.0240.58
DCGAN (Radford et al., 2016)6.4037.11
WGAN + GP (Gulrajani et al., 2017)6.5036.40
EBM (10 historical ensemble)6.7838.20
SNGAN (Miyato et al., 2018)8.2221.70
CIFAR-10 Conditional – Improved GAN8.09-
EBM (single) – CIFAR-10 Conditional8.3037.90
Spectral Normalization GAN8.5925.50
PixelCNN (ImageNet 32x32 Conditional)8.3333.27
PixelIQN (ImageNet 32x32 Conditional)10.1822.99
EBM (single) – ImageNet 32x32 Conditional18.2214.31
ACGAN (Odena et al., 2017)28.5-
EBM* (single)28.643.70
SNGAN36.827.62
  • 使用Langevin基础的隐式生成的EBMs在CIFAR-10和ImageNet32x32上产出高质量样本,接近GAN的性能并且在模式覆盖上优于某些似然模型。
  • EBMs展示去污染化和修复能力,显示语义层面的模式覆盖和跨类别的隐式采样。
  • 条件EBMs在对抗鲁棒性方面表现优越,在未进行对抗训练的情况下,在L_infty和L2攻击上超越一些基线模型。
  • 基于EBMs的OOD检测优于若干似然模型,在多个OOD数据集上实现更高的AUROC。
  • EBMs实现多步轨迹预测,其Frechet Distance低于FC基线,并在Split MNIST显示出强的持续学习性能。
  • 通过对独立EBMs求和的成分性生成实现联合采样和潜在因子跨乘积的零-shot泛化,展示潜在因子的成分性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。