QUICK REVIEW

[論文レビュー] Unpaired Image-to-Image Translation via Neural Schrödinger Bridge

Beomsu Kim, Gihyun Kwon|arXiv (Cornell University)|May 24, 2023

Model Reduction and Neural Networks被引用数 9

ひとこと要約

UNSBはシュレディンガー橋梁を、敵対的に学習される生成器の連続として再定義し、高解像度でのペアなし画像間翻訳をスケーラブルに実現し、次元の呪いに対処する。

ABSTRACT

Diffusion models are a powerful class of generative models which simulate stochastic differential equations (SDEs) to generate data from noise. While diffusion models have achieved remarkable progress, they have limitations in unpaired image-to-image (I2I) translation tasks due to the Gaussian prior assumption. Schrödinger Bridge (SB), which learns an SDE to translate between two arbitrary distributions, have risen as an attractive solution to this problem. Yet, to our best knowledge, none of SB models so far have been successful at unpaired translation between high-resolution images. In this work, we propose Unpaired Neural Schrödinger Bridge (UNSB), which expresses the SB problem as a sequence of adversarial learning problems. This allows us to incorporate advanced discriminators and regularization to learn a SB between unpaired data. We show that UNSB is scalable and successfully solves various unpaired I2I translation tasks. Code: \url{https://github.com/cyclomon/UNSB}

研究の動機と目的

ガウス事前分布を超える柔軟な分布間輸送によるペアなし画像間翻訳を動機づける。
高次元画像データにおける既存のシュレディンガー架橋メソッドの主要な障壁として次元の呪いを特定する。
UNSBを提案し、SBを学習可能な生成器の連鎖として表現し、敵対的損失とKL制約で訓練する。
UNSBは256x256の画像にスケーラブルであり、ベンチマークタスクでワンステップのGANベースおよび拡散ベースの方法を上回ることができることを示す。）
method:["SB問題を[0,1]内の時間ステップt_iの連列として定式化し、ソースドメインのサンプルをターゲットドメインのサンプルへ写像する条件付き生成器q_phi(x_1|x_{t_i})を学習する。","真のターゲット分布p(x_1)とq_phi(x_1)を整合させるKL発散制約を導入する（ adversarial 学習を通じて）。","時間条件付きニューラルネットワークを用いて時間ステップ間でパラメータを共有する: q_phi(x_1|x_{t_i}, t_i)。","SBを確率的制御/静的定式化として表現し、学習済みコストとエントロピー項を用いた各ステップの輸送へ分解可能とする。","識別器を導入（高度な例：マルコフ/パッチベース）し、x_0と予測されたx_1の整合性を強制する正則化を行い、次元性の問題を緩和する。","敵対的損失、SB（エントロピー正則化輸送）項、正則化を組み合わせたUNSB目的を交互にサンプリングし最適化して訓練する。

提案手法

SB問題を[0,1]内の時間ステップt_iの連列として定式化し、ソースドメインのサンプルをターゲットドメインのサンプルへ写像する条件付き生成器q_phi(x_1|x_{t_i})を学習する。
真のターゲット分布p(x_1)とq_phi(x_1)を整合させるKL発散制約を導入する（ adversarial 学習を通じて）。
時間条件付きニューラルネットワークを用いて時間ステップ間でパラメータを共有する: q_phi(x_1|x_{t_i}, t_i)。
SBを確率的制御/静的定式化として表現し、学習済みコストとエントロピー項を用いた各ステップの輸送へ分解可能とする。
識別器を導入（高度な例：マルコフ/パッチベース）し、x_0と予測されたx_1の整合性を強制する正則化を行い、次元性の問題を緩和する。
敵対的損失、SB（エントロピー正則化輸送）項、正則化を組み合わせたUNSB目的を交互にサンプリングし最適化して訓練する。

Figure 1: Left: Illustration of trajectories for Vanilla SB and UNSB. Due to the curse of dimensionality, observed data in high dimensions become sparse and fail to describe image manifolds accurately. Vanilla SB learns optimal transport between observed data, leading to undesirable mappings. UNSB e

実験結果

リサーチクエスチョン

RQ1シュレディンガー橋梁は、単純なガウス事前分布に頼らず、高解像度のペアなし画像間翻訳の直接的な学習が可能か？
RQ2多ステップの敵対的に学習されたSB（UNSB）は次元の呪いを緩和し、標準ベンチマークでワンステップGANおよび拡散ベースのI2I法を上回るか？
RQ3高度な識別器と正則化は、高次元の画像空間における翻訳の品質と多様性にどのように影響するか？

主な発見

手法	NFE	Time(s)	Horse2Zebra_FID	Horse2Zebra_KID	Summer2Winter_FID	Summer2Winter_KID	Label2Cityscape_FID	Label2Cityscape_KID	Map2Satellite_FID	Map2Satellite_KID
NOT	1	0.006	104.3	5.012	185.5	8.732	221.3	19.76	224.9	16.59
CycleGAN	1	0.004	77.2	1.957	84.9	1.022	76.3	3.532	54.6	3.430
MUNIT	1	0.011	133.8	3.790	115.4	4.901	91.4	6.401	181.7	12.03
Distance	1	0.009	72.0	1.856	97.2	2.843	81.8	4.410	98.1	5.789
GcGAN	1	0.0027	86.7	2.051	97.5	2.755	105.2	6.824	79.4	5.153
CUT	1	0.0033	45.5	0.541	84.3	1.207	56.4	1.611	56.1	3.301
SDEdit	30	1.98	97.3	4.082	118.6	3.218	–	–	–	–
P2P	50	120	60.9	1.093	99.1	2.626	–	–	–	–
Ours-best	5	0.045	35.7	0.587	73.9	0.421	53.2	1.191	47.6	2.013

UNSBは敵対的学習と正則化を活用して時間ステップ全体の生成器の組成を学習することで次元の呪いを克服する。
toyデータセットと実データで、UNSBはNOTおよび他のSB変種を忠実度（FID/KID）と構造保持の両方で上回る、256x256解像度で。
UNSBはHorse2Zebra, Summer2Winter, Label2Cityscape, Map2SatelliteタスクでCycleGAN, CUT, および拡散っぽいベースラインと比較して競争力あるまたは優れた結果を達成。
アブレーション研究はマルチステップ戦略、パッチベース識別器、正則化を追加するごとに性能が向上することを示す。
NFE分析は3–5ステップで最良の結果を示し、進んだ識別器と正則化を用いると控えめなNFEでも非常に競争力のある結果を得られる。
定性的結果は、UNSBがソースの構造を保持しつつドメイン固有のスタイルを効果的に翻訳することを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。