[论文解读] Unpaired Image-to-Image Translation via Neural Schrödinger Bridge
UNSB 将 Schrödinger 桥重新定义为一系列对抗学习生成器,以实现高分辨率的无配对图像到图像翻译的可扩展性,解决维度灾难。
Diffusion models are a powerful class of generative models which simulate stochastic differential equations (SDEs) to generate data from noise. While diffusion models have achieved remarkable progress, they have limitations in unpaired image-to-image (I2I) translation tasks due to the Gaussian prior assumption. Schrödinger Bridge (SB), which learns an SDE to translate between two arbitrary distributions, have risen as an attractive solution to this problem. Yet, to our best knowledge, none of SB models so far have been successful at unpaired translation between high-resolution images. In this work, we propose Unpaired Neural Schrödinger Bridge (UNSB), which expresses the SB problem as a sequence of adversarial learning problems. This allows us to incorporate advanced discriminators and regularization to learn a SB between unpaired data. We show that UNSB is scalable and successfully solves various unpaired I2I translation tasks. Code: \url{https://github.com/cyclomon/UNSB}
研究动机与目标
- 激励无配对图像到图像翻译,超越高斯先验的灵活分布到分布传输。
- 确定维度灾难是现有 Schrödinger 桥方法在高维图像数据中的关键障碍。
- 提出 UNSB,将 SB 表达为一系列可学习生成器,使用对抗损失和 KL 约束进行训练。
- 展示 UNSB 可扩展到 256x256 图像,并且在基准任务上能够优于基于 GAN 的单步方法和扩散式方法。
提出的方法
- 将 SB 问题形式化为 [0,1] 区间内的时间步 t_i 的序列,学习条件生成器 q_phi(x_1|x_{t_i}),将源域样本映射到目标域样本。
- 通过对抗学习实现的 KL 发散约束,将 q_phi(x_1) 与真实目标分布 p(x_1) 对齐。
- 使用时序条件的神经网络在时间步之间共享参数:q_phi(x_1|x_{t_i}, t_i)。
- 将 SB 表达为随机控制/静态形式,便于分解为每步的传输,带有学习到的成本和熵项。
- 引入判别器(先进的,如马尔可夫/基于补丁)和正则化,强制 x_0 与预测的 x_1 之间的一致性,缓解维度问题。
- 通过交替采样中间状态 x_{t_i} 并优化 UNSB 目标来训练,该目标结合对抗损失、SB(熵正则化传输)项和正则化。

实验结果
研究问题
- RQ1Schrödinger 桥是否可以直接在无需简单高斯先验的情况下,用于无配对的高分辨率图像到图像翻译进行训练?
- RQ2多步、对抗训练的 SB(UNSB)是否能缓解维度灾难,在标准基准上优于单步 GAN 和扩散式 I2I 方法?
- RQ3先进的判别器与正则化如何影响高维图像空间的翻译质量与多样性?
主要发现
- UNSB 通过利用对抗学习和正则化来学习跨时间步的生成器组合,克服维度灾难。
- 在 toy 与 real 数据集上,UNSB 在保真度(FID/KID)和结构保留方面,在 256x256 分辨率上优于 NOT 和其他 SB 变体。
- UNSB 在 Horse2Zebra, Summer2Winter, Label2Cityscape, Map2Satellite 任务中,与 CycleGAN、CUT 和扩散类基线相比,结果具有竞争力或更优。
- 消融研究表明,增加多步策略、基于补丁的判别器和正则化可逐步提升性能。
- NFEs 分析显示最佳结果约在 3–5 步,当使用先进的判别器和正则化时,即使在较小的 NFE 也具有非常有竞争力的结果。
- 定性结果显示,UNSB 在翻译域风格的同时保持源结构。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。