[論文レビュー] Multi-mapping Image-to-Image Translation via Learning Disentanglement
この論文は DMIT を提案します。単一モデルで多ドメイン・多モーダルの画像間翻訳を同時に実現する、コンテンツとスタイル表現を分離して学習する無教師付きの統一フレームワーク。
Recent advances of image-to-image translation focus on learning the one-to-many mapping from two aspects: multi-modal translation and multi-domain translation. However, the existing methods only consider one of the two perspectives, which makes them unable to solve each other's problem. To address this issue, we propose a novel unified model, which bridges these two objectives. First, we disentangle the input images into the latent representations by an encoder-decoder architecture with a conditional adversarial training in the feature space. Then, we encourage the generator to learn multi-mappings by a random cross-domain translation. As a result, we can manipulate different parts of the latent representations to perform multi-modal and multi-domain translations simultaneously. Experiments demonstrate that our method outperforms state-of-the-art methods.
研究の動機と目的
- 複数のドメインおよび多モーダル I2I 翻訳を単一の統一フレームワークへ橋渡しする。
- ドメイン間で共有されるコンテンツとスタイル表現を分離して学習する。
- ランダムなドメイン/スタイルのサンプリングと潜在回帰により、ドメイン横断翻訳と多様な出力を可能にする。
- ドメイン間で潜在表現を整合させ、翻訳品質と多様性を向上させる。
提案手法
- E_c と E_s を用いて入力画像をコンテンツ (C) 空間とスタイル (S) 空間に分離する。
- ドメインラベル d とスタイル s を条件にした統一スタイルベースの生成器 G を用い、x = G(C(x), S(x), d) を生成する。
- 潜在空間での cVAE 的目的と条件付き対向損失を用いた分離パスを用いて訓練する。
- ランダムなクロスドメイン翻訳と潜在回帰(L_reg)により多様性と出力分布を完全化する。
- 統一的な条件付き識別器 D_c とピクセル空間 GAN D_x を用いて、ドメイン間で実データと生成分布を一致させる。
- L_D-Path および L_T-Path を L_cVAE, L^c_GAN, L_reg, L^x_GAN の成分とともに min_{G,E_c,E_s} max_{D_c,D_x} により jointly 最適化する。
実験結果
リサーチクエスチョン
- RQ1単一の無 supervision フレームワークでどのように多ドメイン・多モーダル I2I 翻訳を統合できるか?
- RQ2コンテンツとスタイルを分離し、ドメイン間で潜在空間を整合させることは、多くのドメインに渡る多様で高品質な翻訳を可能にするか?
- RQ3ランダムなクロスドメインサンプリングと潜在回帰は出力分布のカバー率と生成多様性を向上させるか?
- RQ4ドメインが無数に存在する意味的画像合成を単一統一モデルで扱えるか?
主な発見
| モデル | summer→winter FID | summer→winter LPIPS | summer→summer FID | summer→summer LPIPS | winter→summer FID | winter→summer LPIPS | winter→winter FID | winter→winter LPIPS |
|---|---|---|---|---|---|---|---|---|
| StarGAN | 218.78 | - | 233.61 | - | 248.29 | - | 224.37 | - |
| StarGAN* | 152.11 | 0.012 | 135.25 | 0.011 | 153.79 | 0.013 | 149.04 | 0.011 |
| MUNIT | 84.43 | 0.166 | 58.96 | 0.133 | 73.82 | 0.134 | 68.92 | 0.141 |
| DRIT | 58.70 | 0.205 | 49.58 | 0.166 | 53.79 | 0.192 | 57.11 | 0.179 |
| SingleGAN | 63.77 | 0.184 | 51.64 | 0.186 | 54.24 | 0.188 | 57.30 | 0.178 |
| DMIT w/o T-Path | 75.90 | 0.109 | 57.24 | 0.118 | 72.75 | 0.124 | 65.15 | 0.116 |
| DMIT w/o D-Path | 116.71 | 0.545 | 85.97 | 0.513 | 95.63 | 0.517 | 124.96 | 0.544 |
| DMIT w/o L^c_GAN | 60.81 | 0.268 | 43.54 | 0.260 | 50.33 | 0.270 | 58.09 | 0.256 |
| DMIT w/ VanillaD | 63.34 | 0.259 | 44.73 | 0.239 | 50.79 | 0.255 | 60.10 | 0.242 |
| DMIT w/ ProjectionD | 66.50 | 0.289 | 46.92 | 0.301 | 52.40 | 0.293 | 65.66 | 0.299 |
| DMIT | 58.46 | 0.302 | 43.04 | 0.275 | 48.02 | 0.292 | 55.23 | 0.279 |
- DMIT はベースラインと比較して季節遷移タスクで優れた FID スコアを達成。
- DMIT は同一ドメイン内での入力ごとにより多様な出力を示す LPIPS 多様性スコアを高く達成。
- アブレーション研究により、翻訳パス(T-Path)と分離パス(D-Path)の両方が品質と多様性のために重要であることが示された。
- 潜在回帰(L_reg)と L^x_GAN は多様性とスタイル/コンテンツの使用の正確性を改善する。
- DMIT は SISGAN、Paired-D GAN、TAGAN に比べて FID、ヒト知覚スコア、PSNR、SSIM の点で意味的画像合成で強い性能を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。