QUICK REVIEW

[論文レビュー] UNIT-DDPM: UNpaired Image Translation with Denoising Diffusion Probabilistic Models

Hiroshi Sasaki, Chris G. Willcocks|arXiv (Cornell University)|Apr 12, 2021

Generative Adversarial Networks and Image Synthesis参考文献 30被引用数 69

ひとこと要約

UNIT-DDPM は去噪拡散確率モデルを用いて対となっていない画像間翻訳を adversarial training なしで実行し、両方のドメイン上の結合マルコフ連鎖分布を学習してソースドメインを条件にサンプリングすることにより、強力な FID スコアを達成します。

ABSTRACT

We propose a novel unpaired image-to-image translation method that uses denoising diffusion probabilistic models without requiring adversarial training. Our method, UNpaired Image Translation with Denoising Diffusion Probabilistic Models (UNIT-DDPM), trains a generative model to infer the joint distribution of images over both domains as a Markov chain by minimising a denoising score matching objective conditioned on the other domain. In particular, we update both domain translation models simultaneously, and we generate target domain images by a denoising Markov Chain Monte Carlo approach that is conditioned on the input source domain images, based on Langevin dynamics. Our approach provides stable model training for image-to-image translation and generates high-quality image outputs. This enables state-of-the-art Fréchet Inception Distance (FID) performance on several public datasets, including both colour and multispectral imagery, significantly outperforming the contemporary adversarial image-to-image translation methods.

研究の動機と目的

安定性と出力品質を向上させるため、敵対的訓練なしでの非ペア画像間翻訳を動機づける。
両方のドメイン上の結合分布をマルコフ連鎖として学習する、双域 DDPM ベースのモデルを提案する。
ソースドメインからターゲットドメインへ翻訳するための条件付き去噪サンプリング手順を開発する。
循環整合性正則化を用いて訓練の安定性と翻訳品質の両立を確保する。
カラーおよび多スペクトル画像を含むベンチマークデータセット上でFIDの経験的改善を示す。

提案手法

ソースドメインとターゲットドメインの結合分布をマルコフ連鎖としてモデル化する双域 DDPM を訓練する。
訓練時に反転拡散プロセスを他方ドメインからの翻訳画像で条件付けする（DSM 目的）。
去噪スコアマッチング損失（L_simple）を用いて去噪ネットワークのパラメータを学習する。
推論時には Langevin ダイナミクスを用いた条件付き逆拡散でドメイン翻訳を行う。
循環一貫性損失を用いて翻訳の bidirectional translations を正則化する。
拡散ステップに対して ResNet アーキテクチャを用いたドメイン翻訳器と、U-Net バックボーンを持つ去噪ネットワークを実装する。

実験結果

リサーチクエスチョン

RQ1DDPMを用いて結合ドメイン分布をモデル化することで、非ペア I2I 翻訳を adversarial training なしで実現できるか？
RQ2拡散の逆過程を対になるドメインで条件付けることは、効果的なドメイン間翻訳を可能にするか？
RQ3提案された DSM ベースの訓練は、多様なデータセットにわたって安定した最適化と高品質な出力をもたらすか？
RQ4リリース時パラメータ（t_r）の翻訳品質へのデータセット間の影響はどの程度か？
RQ5標準の非ペア I2I ベンチマークにおける FID の観点で、UNIT-DDPM は CycleGAN、UNIT、MUNIT、DRIT++ と比較してどのような性能か？

主な発見

UNIT-DDPM は CycleGAN、UNIT、MUNIT、DRIT++ と比較して Facades, Photos–Maps, Summer–Winter, RGB–Thermal データセットで最先端の FID スコアを達成しました。
訓練は敵対的目的なしで安定した訓練を実現し、モード崩壊などの一般的な GAN 訓練問題を低減します。
去噪拡散フレームワークは高品質で現実的な出力を実現し、段階的サンプリングのビジュアルを可能にします。
推論サンプルは入力ソース画像で条件付けされ、Langevin ダイナミクスベースの拡散サンプリングによりターゲットドメイン画像を得ます。
リリース時刻 (t_r) の感度はデータセット依存であることが多いが、テスト範囲内では通常 FID への影響は限定的であることを示します。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。