Skip to main content
QUICK REVIEW

[論文レビュー] DualGAN: Unsupervised Dual Learning for Image-to-Image Translation

Zili Yi, Hao Zhang|arXiv (Cornell University)|Apr 8, 2017
Generative Adversarial Networks and Image Synthesis参考文献 1被引用数 310
ひとこと要約

DualGANは、二つのドメインからのラベルなし画像セットを用い、primal-dual ループで2つの生成器を訓練することで、再構成損失と敵対的識別器を用いた教師なしの画像から画像への翻訳を可能にする。

ABSTRACT

Conditional Generative Adversarial Networks (GANs) for cross-domain image-to-image translation have made much progress recently. Depending on the task complexity, thousands to millions of labeled image pairs are needed to train a conditional GAN. However, human labeling is expensive, even impractical, and large quantities of data may not always be available. Inspired by dual learning from natural language translation, we develop a novel dual-GAN mechanism, which enables image translators to be trained from two sets of unlabeled images from two domains. In our architecture, the primal GAN learns to translate images from domain U to those in domain V, while the dual GAN learns to invert the task. The closed loop made by the primal and dual tasks allows images from either domain to be translated and then reconstructed. Hence a loss function that accounts for the reconstruction error of images can be used to train the translators. Experiments on multiple image translation tasks with unlabeled data show considerable performance gain of DualGAN over a single GAN. For some tasks, DualGAN can even achieve comparable or slightly better results than conditional GAN trained on fully labeled data.

研究の動機と目的

  • ラベル付きペアが不足しているまたは利用できない場合に、教師なしの画像間翻訳を動機づける。
  • NLPのデュアル学習に触発されたデュアル学習フレームワークを開発し、ラベルなしデータから双方向の翻訳モデルを訓練する。
  • 敵対的識別器と再構成損失を活用してドメインの一貫性を強制し、高品質な翻訳を生成する。

提案手法

  • ラベルなしのUとVから、G_A: U -> V および G_B: V -> U を学習するために、二つのGAN(primalとdual)を使用する。
  • 実サンプルと翻訳後サンプルを区別するため、識別器 D_A および D_B に Wasserstein GAN 損失を適用する。
  • 循環整合性を課すため、L1 再構成損失: ||u - G_B(G_A(u,z), z')|| および ||v - G_A(G_B(v,z'), z)|| を追加する。
  • 生成器をU-Netスタイルのアーキテクチャ(スキップ接続付き)として構成し、構造的ディテールを保持する。
  • 局所的なテクスチャとスタイルを捉えるため、70x70パッチで動作するPatchGAN識別器を使用。
  • 交互スキームで訓練する:識別器のn_criticステップの後に生成器を更新し、WGANと同様に RMSProp とウェイトクリッピングを使用。

実験結果

リサーチクエスチョン

  • RQ12つのラベルなし画像セットจาก domains U および V が、ペアなしで信頼できる双方向翻訳器 G_A と G_B を訓練できるか?
  • RQ2再構成(サイクル整合性)損失と敵対的フィードバックを組み合わせることで、翻訳品質は単一GANのベースラインより改善されるか?
  • RQ3DualGANはラベルなしデータでの diverse な翻訳タスクにおいて、GANや教師付きcGANと比較してどうなのか?
  • RQ4ネットワーク設計の選択肢(例:U-Net生成器、PatchGAN識別器)は、教師なし設定の翻訳忠実度にどの程度寄与するか?
  • RQ5いくつかのタスク特有の制限が、ラベル付きのガイダンスなしには教師なし翻訳で不足する場面はあるか?

主な発見

  • DualGANは、複数の教師なし翻訳タスクにおいて、単一GANよりもブレが少なくアーティファクトが少なくなる傾向がある。
  • いくつかのタスクで、DualGANはラベルなしデータを用いて監視付きcGANの性能と同等または上回ることがある。
  • DualGANは、ラベルなしデータセット(例:油絵→中国絵画、プラスチック→金属など)で視覚的に説得力のある翻訳を生成できる。
  • AMTベースの知覚とリアリティ評価は、DualGANがGANを上回り、いくつかのタスクではcGANの性能に匹敵することを示している。
  • ラベル→ facade や map→ aerial のタスクでは、訓練時のピクセルレベルのラベル対応情報が欠如しているため、DualGANはcGANに遅れをとる場合がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。