[論文レビュー] EGSDE: Unpaired Image-to-Image Translation via Energy-Guided Stochastic Differential Equations
EGSDE は、ソースドメインとターゲットドメインの双方でトレーニングされたエネルギー関数を用いて、事前学習済みのスコアベース拡散モデルをガイドし、ペアなしの I2I 翻訳におけるリアリズムと忠実度を向上させる。専門家の積集合としての解釈を提供し、AFHQ および CelebA-HQ のタスク全体で忠実度を犠牲にすることなく最先端のリアリズムを示す。
Score-based diffusion models (SBDMs) have achieved the SOTA FID results in unpaired image-to-image translation (I2I). However, we notice that existing methods totally ignore the training data in the source domain, leading to sub-optimal solutions for unpaired I2I. To this end, we propose energy-guided stochastic differential equations (EGSDE) that employs an energy function pretrained on both the source and target domains to guide the inference process of a pretrained SDE for realistic and faithful unpaired I2I. Building upon two feature extractors, we carefully design the energy function such that it encourages the transferred image to preserve the domain-independent features and discard domain-specific ones. Further, we provide an alternative explanation of the EGSDE as a product of experts, where each of the three experts (corresponding to the SDE and two feature extractors) solely contributes to faithfulness or realism. Empirically, we compare EGSDE to a large family of baselines on three widely-adopted unpaired I2I tasks under four metrics. EGSDE not only consistently outperforms existing SBDMs-based methods in almost all settings but also achieves the SOTA realism results without harming the faithful performance. Furthermore, EGSDE allows for flexible trade-offs between realism and faithfulness and we improve the realism results further (e.g., FID of 51.04 in Cat to Dog and FID of 50.43 in Wild to Dog on AFHQ) by tuning hyper-parameters. The code is available at https://github.com/ML-GSAI/EGSDE.
研究の動機と目的
- エネルギーガイダンスを用いて、未ペアI2Iにおけるソースドメインの学習データを活用する動機付け。
- 現実感と忠実度のバランスを取るため、両方のドメインで訓練されたエネルギー関数を設計する。
- 翻訳時にドメイン非依存の特徴を保持し、ドメイン固有の特徴を捨てる。
- EGSDE フレームワークの理論的解釈を専門家の積として提供する。
- 標準的な未ペアI2Iベンチマークで経験的に検証し、性能向上を示す。
提案手法
- 事前学習済みのSDEにエネルギー項を組み込んだ逆時間SDEを用いて条件分布 p(y0|x0) を定式化する(Eq. 6)。
- E(y,x,t) を二つの対数ポテンシャルの和として定義する。E = lambda_s E_s + lambda_i E_i(Eq. 7)。
- E_s はソースとの類似性を最大化する時相依存のドメイン固有特徴抽出機を用いる(Eq. 9)。
- E_i はドメイン非依存のローパス特徴抽出機を用いてソースとの差をペナルティ付与する(Eq. 10)。
- 勾配 grad_y E を組み込んだ Euler-Maruyama 更新を用いてエネルギー誘導逆時間SDEを解く(Eq. 12)。
- p(y_t|x0) ≈ p_r1(y_t|x0) p_e(y_t|x0) / Z_t(Eq. 13)を示す専門家の積としての解釈を提供し、三専門家系(Eq. 16)と関連づける。
実験結果
リサーチクエスチョン
- RQ1ソースドメインとターゲットドメインの双方で事前訓練されたエネルギー関数は、ターゲットドメインの拡散のみを用いる場合を超えて、未ペア I2I における現実感と忠実度を改善できるか?
- RQ2ドメイン非依存の特徴の保持を促しつつ、ドメイン特有の特徴を捨てるようにエネルギー関数をどのように構築すべきか?
- RQ3提案手法のEGSDEフレームワークは、標準タスクにおいてSBDMsベースおよびGANベースの未ペア I2I のベースラインを上回るか?
- RQ4手法は現実性と忠実度の制御可能なトレードオフを可能にするか?
- RQ5SDEとエネルギー成分の役割を明らかにする、EGSDEを専門家の積としての理論的解釈はあるか?
主な発見
| モデル | FID ↓ | L2 ↓ | PSNR ↑ | SSIM ↑ | AMT ↑ |
|---|---|---|---|---|---|
| Cat → Dog (SOTA DPR) | 65.82 ± 0.77 | 47.22 ± 0.08 | 19.31 ± 0.02 | 0.415 ± 0.001 | - |
| Cat → Dog (EGSDE †) | 51.04 ± 0.37 | 62.06 ± 0.10 | 17.17 ± 0.02 | 0.361 ± 0.001 | - |
| Wild → Dog (SOTA DPR) | 59.75 ± 0.62 | 54.34 ± 0.08 | 18.14 ± 0.01 | 0.343 ± 0.001 | - |
| Wild → Dog (EGSDE †) | 50.43 ± 0.52 | 66.52 ± 0.09 | 16.40 ± 0.01 | 0.300 ± 0.001 | - |
| Male → Female (SOTA DPR) | 41.93 ± 0.11 | 42.04 ± 0.03 | 20.35 ± 0.01 | 0.574 ± 0.000 | - |
| Male → Female (EGSDE †) | 30.61 ± 0.19 | 53.44 ± 0.09 | 18.32 ± 0.02 | 0.510 ± 0.001 | - |
- EGSDE は Cat→Dog、Wild→Dog、Male→Female のタスク全体で現実性と忠実度の点で SBDMsベースのベースラインを一貫して上回る。
- EGSDE は AFHQ 比較で最先端の現実性を達成しつつ忠実度を損なわない。
- ハイパーパラメータ(λs、λi)と初期時刻 M の調整により、現実性と忠実度の制御可能なトレードオフを実現し、現実性指標を改善する。
- SDEdit と比較して、AFHQ ベンチマークで顕著な FID の改善を示す(表の例) 。
- 人間の評価(AMT)では、ペアワイズ比較で Baseline より EGSDE が好ましいと示される。
- 本手法は FID スコアを低く抑え、PSNR/SSIM も競合的で、全体的に高品質な画像を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。