[論文レビュー] Unsupervised Image-to-Image Translation Networks
この論文は、共有潜在空間を用いた事前学習なしの画像間翻訳フレームワーク UNIT を紹介します。結合した VAE と GAN を利用して、ペアデータなしで二つの領域間の翻訳を可能にし、ドメイン適応ベンチマークで最先端の結果を達成します。
Unsupervised image-to-image translation aims at learning a joint distribution of images in different domains by using images from the marginal distributions in individual domains. Since there exists an infinite set of joint distributions that can arrive the given marginal distributions, one could infer nothing about the joint distribution from the marginal distributions without additional assumptions. To address the problem, we make a shared-latent space assumption and propose an unsupervised image-to-image translation framework based on Coupled GANs. We compare the proposed framework with competing approaches and present high quality image translation results on various challenging unsupervised image translation tasks, including street scene image translation, animal image translation, and face image translation. We also apply the proposed framework to domain adaptation and achieve state-of-the-art performance on benchmark datasets. Code and additional results are available in https://github.com/mingyuliutw/unit .
研究の動機と目的
- ドメイン周辺分布のみが利用可能な場合の、教師なしの画像間翻訳を動機づける。
- クロスドメイン翻訳のために二つの VAE-GAN を結合する共有潜在空間仮定を提案する。
- 敵対的損失とサイクル一貫性制約を用いて、翻訳と再構成ストリームを同時に訓練する。
- 街路シーン、動物、顔の高品質な翻訳を実証し、ドメイン適応へ適用する。
提案手法
- 二つのエンコーダ E1, E2、二つの生成器 G1, G2、二つの識別器 D1, D2 からなる六部サブネットワークの UNIT フレームワークを提案する。
- E1 と E2 の高次層のウェイト共有、および G1 と G2 の低次層のウェイト共有によって共有潜在空間を強制する。
- 各領域を VAE-GAN の目的関数でモデル化し、KL 正則化と z ~ q(z|x) による再構成を含める。
- 翻訳ストリーム上の敵対的損失と、共有潜在空間仮定に従うサイクル一貫性正則化を用いる。
- VAE 損失、GAN 損失、およびサイクル一貫性損失をミニマックス訓練スキームで同時最適化する。
- 翻訳関数 F1→2(x1)=G2(z1) および F2→1(x2)=G1(z2) を潜在エンコードを介して定義する。
実験結果
リサーチクエスチョン
- RQ1共有潜在空間は、ペアデータなしで二つの画像領域間の教師なし翻訳を可能にするか?
- RQ2ウェイト共有と敵対的訓練は、跨ドメイン写像を一貫させるか?
- RQ3サイクル一貫性と共有潜在空間制約は翻訳品質にどのように寄与するか?
- RQ4UNIT フレームワークはデータセット間の教師なしドメイン適応性能を向上させるか?
主な発見
| 方法 | SA [4] | DANN [5] | DTN [26] | CoGAN | UNIT (提案) |
|---|---|---|---|---|---|
| SVHN → MNIST | 0.5932 | 0.7385 | 0.8488 | - | 0.9053 |
| MNIST → USPS | - | - | - | 0.9565 | 0.9597 |
| USPS → MNIST | - | - | - | 0.9315 | 0.9358 |
- UNIT フレームワークは、街路シーン、動物、顔の跨ドメイン翻訳で高品質な教師なし翻訳を達成する。
- ウェイト共有とともに joint VAE-GAN 訓練を行うと、共有潜在コードが領域間の対応画像対を生み出す。
- アブレーション研究は、ウェイト共有とサイクル一貫性の双方が翻訳性能を向上させ、全モデルが最も良い性能を示すことを示す。
- ドメイン適応ベンチマークでは、UNIT は CoGAN や DTN などの従来法をいくつかのタスクで上回る。
- 定性的な結果として sunny↔rainy、day↔night、synthetic↔real の翻訳が含まれ、現実的な跨ドメイン変化を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。