Skip to main content
QUICK REVIEW

[论文解读] Building Normalizing Flows with Stochastic Interpolants

Michael S. Albergo, Eric Vanden‐Eijnden|arXiv (Cornell University)|Sep 30, 2022
Generative Adversarial Networks and Image Synthesis被引用 21
一句话总结

我们引入 InterFlow,一种从随机插值的概率电流中学习的连续时间正则化流,具有在有限时间内实现传输、沿路径的似然评估,以及在不通过 ODE 求解器反向传播的情况下高效训练的能力。

ABSTRACT

A generative model based on a continuous-time normalizing flow between any pair of base and target probability densities is proposed. The velocity field of this flow is inferred from the probability current of a time-dependent density that interpolates between the base and the target in finite time. Unlike conventional normalizing flow inference methods based the maximum likelihood principle, which require costly backpropagation through ODE solvers, our interpolant approach leads to a simple quadratic loss for the velocity itself which is expressed in terms of expectations that are readily amenable to empirical estimation. The flow can be used to generate samples from either the base or target, and to estimate the likelihood at any time along the interpolant. In addition, the flow can be optimized to minimize the path length of the interpolant density, thereby paving the way for building optimal transport maps. In situations where the base is a Gaussian density, we also show that the velocity of our normalizing flow can also be used to construct a diffusion model to sample the target as well as estimate its score. However, our approach shows that we can bypass this diffusion completely and work at the level of the probability flow with greater simplicity, opening an avenue for methods based solely on ordinary differential equations as an alternative to those based on stochastic differential equations. Benchmarking on density estimation tasks illustrates that the learned flow can match and surpass conventional continuous flows at a fraction of the cost, and compares well with diffusions on image generation on CIFAR-10 and ImageNet $32 imes32$. The method scales ab-initio ODE flows to previously unreachable image resolutions, demonstrated up to $128 imes128$.

研究动机与目标

  • 在持续时间框架内推动基分布与目标分布之间的高效传输。
  • 通过最小化一个简单的二次目标,使连续方程成立,推断速度场 v_t。
  • 在插值路径上实现采样和似然估计,并与最优传输建立联系。
  • 展示在密度估计和图像生成任务中的可扩展性和竞争性表现,避免对 ODE 求解进行反向传播。

提出的方法

  • 定义一个随机插值 x_t = I_t(x_0,x_1),其中 x_0 ~ ρ_0 且 x_1 ~ ρ_1。
  • 证明 ρ_t(x) 满足连续方程,且存在一个使二次目标 G(v) 最小化的速度场 v_t(x)。
  • 用来自 ρ_0、ρ_1 和 t 的样本的期望来表达 G(v) 及其最小化解,从而实现经验估计。
  • 证明通过调整插值 I_t 和/或基分布 ρ_0 可以优化插值路径长度,以逼近最优传输(Benamou–Brenier)。
  • 当 ρ_0 为高斯分布时,将速度与分布的分数函数联系起来,提供与基于分数的扩散概念的联系,并推导用于采样的 SDE 解释。

实验结果

研究问题

  • RQ1是否可以直接从随机插值中学习速度场,使得到的 ρ_t 满足 ρ_0 与 ρ_1 之间的连续方程?
  • RQ2训练目标如何与真实目标分布与被传输基分布之间的 Wasserstein-2 距离相关?
  • RQ3优化插值 I_t(以及可能的基)是否能缩短传输路径并产生最优传输映射?
  • RQ4与基于最大似然估计的连续流和扩散模型在密度估计和图像生成方面相比,该速度驱动、插值驱动的方法表现如何?

主要发现

  • 由插值引起的密度 ρ_t 满足具有唯一最小化二次目标 G(v) 的速度 v_t 的连续方程。
  • 目标函数 G(v) 可以从样本经验估计,实现对速度场的无仿真训练。
  • 该框架可以从基分布和目标分布生成样本,并沿着插值路径计算似然性。
  • 在适当条件下,最大化对插值的 G(v) 的最小值可得到对应于 Benamou–Brenier 最优传输解的路径。
  • 在基分布 ρ_0 为高斯且插值为正弦的情况下,插值速度与密度分数相关,连接到基于分数的模型;该方法支持基于 SDE 的采样解释。
  • 实证结果显示在表格数据上的密度估计具有竞争力,图像生成可扩展至 128×128,并在 CIFAR-10 与 ImageNet 32×32 上的负对数似然/FID 指标具有竞争力,相较于当代的连续流与扩散方法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。