[论文解读] Diffusion Schrödinger Bridge with Applications to Score-Based Generative Modeling
本论文将基于分数的生成建模重新表述为薛定谔桥问题,并引入 Diffusion Schrödinger Bridge (DSB),一种受 IPF 启发的扩散方法,能够在有限时间内实现数据到先验的采样,并提供收敛性保证。
Progressively applying Gaussian noise transforms complex data distributions to approximately Gaussian. Reversing this dynamic defines a generative model. When the forward noising process is given by a Stochastic Differential Equation (SDE), Song et al. (2021) demonstrate how the time inhomogeneous drift of the associated reverse-time SDE may be estimated using score-matching. A limitation of this approach is that the forward-time SDE must be run for a sufficiently long time for the final distribution to be approximately Gaussian. In contrast, solving the Schrödinger Bridge problem (SB), i.e. an entropy-regularized optimal transport problem on path spaces, yields diffusions which generate samples from the data distribution in finite time. We present Diffusion SB (DSB), an original approximation of the Iterative Proportional Fitting (IPF) procedure to solve the SB problem, and provide theoretical analysis along with generative modeling experiments. The first DSB iteration recovers the methodology proposed by Song et al. (2021), with the flexibility of using shorter time intervals, as subsequent DSB iterations reduce the discrepancy between the final-time marginal of the forward (resp. backward) SDE with respect to the prior (resp. data) distribution. Beyond generative modeling, DSB offers a widely applicable computational optimal transport tool as the continuous state-space analogue of the popular Sinkhorn algorithm (Cuturi, 2013).
研究动机与目标
- 将生成建模动机化为薛定谔桥问题,以克服对长时间前向扩散的需求。
- 开发一个可行的连续时间迭代框架(DSB),通过基于分数的扩散来求解薛定谔桥。
- 给出在连续状态空间中与 SGMs 相关的 IPF 的理论收敛性结果。
- 在标准图像数据集上展示生成建模能力,并展示数据分布之间的插值。
提出的方法
- 将前向和后向时间的扩散表述为随机微分方程(SDE),并推导它们的连续时间极限。
- 在连续状态下使用迭代比例拟合(IPF)来近似薛定谔桥。
- 引入 Diffusion Schrödinger Bridge (DSB) 作为一种实用的类似 IPF 的过程,交替通过分数匹配来细化前向和后向转移。
- 使用神经网络通过回归损失近似分数函数和漂移修正(方程式(26)和(27))。
- 给出理论收敛性分析,在温和假设下给出总变差界和 IPF 单调性(定理1及相关命题)。
- 展示使用更短的时间区间从数据中采样,并展示数据分布之间的插值。
实验结果
研究问题
- RQ1生成建模是否可以被框定为在数据与先验之间求解薛定谔桥?
- RQ2在连续状态空间中的 IPF 是否会产生收敛的扩散路径,在有限时间内逼近数据分布?
- RQ3如何将基于分数的扩散整合到使用神经网络分数估计器的薛定谔桥框架中?
- RQ4在此设置下连续 IPF 的收敛性质与速率是什么?
- RQ5多次迭代的 DSB 程序是否改善数据边缘分布的对齐并实现数据插值?
主要发现
- DSB 为薛定谔桥问题提供了一种有限时间的扩散解,相较于传统的长时间前向扩散有改进。
- 第一次 DSB 迭代恢复了 Song et al. (2021) 的方法论,但具备更短时间区间的灵活性;后续迭代进一步降低最终边际分布与目标分布之间的差异。
- 本文给出在连续状态空间中对 IPF 的定量收敛性结果,不依赖紧性,并证明迭代过程在 KL 和总变差方面的单调性。
- DSB 可以看作一个连续时间的 IPF,具有一个实用算法(算法1),通过交替前向和后向网络更新来近似桥接。
- 实验证明在 MNIST 和 CelebA 上的图像生成,并显示多步 DSB 能持续提升生成性能并实现数据分布之间的插值。
- 该框架提供了计算最优传输的 Sinkhorn 算法在连续状态的类比。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。