[論文レビュー] Unpaired Image-to-Image Translation with Domain Supervision.
本稿では、事前学習された分類器を用いてドメイン固有の特徴を抽出することで、ドメイン情報を明示的な監視として活用する、新しい非対応画像間翻訳フレームワークであるドメイン監視 GAN(DosGAN)を提案する。従来の方法がドメイン分離コードや別個の生成器に依存するのに対し、DosGAN はドメイン固有の特徴とドメインに依存しない特徴を統合することで翻訳性能を向上させ、顔の属性、アイデンティティ、季節の翻訳において最先端の性能を達成するとともに、ゼロショットドメイン転送と任意の画像ペア間での条件付き翻訳を可能にする。
Image-to-image translation tasks have been widely investigated with Generative Adversarial Networks (GANs). However, existing approaches are mostly designed in an unsupervised manner while little attention has been paid to domain information within unpaired data. In this paper, we treat domain information as explicit supervision and design an unpaired image-to-image translation framework, Domain-supervised GAN (DosGAN), which takes the first step towards the exploration of explicit domain supervision. In contrast to representing domain characteristics using different generators or domain codes, we pre-train a classification network to explicitly classify the domain of an image. After pre-training, this network is used to extract the domain-specific features of each image. Such features, together with the domain-independent features extracted by another encoder (shared across different domains), are used to generate image in target domain. Extensive experiments on multiple facial attribute translation, multiple identity translation, multiple season translation and conditional edges-to-shoes/handbags demonstrate the effectiveness of our method. In addition, we can transfer the domain-specific feature extractor obtained on the Facescrub dataset with domain supervision information to unseen domains, such as faces in the CelebA dataset. We also succeed in achieving conditional translation with any two images in CelebA, while previous models like StarGAN cannot handle this task.
研究の動機と目的
- 非対応データにおける明示的なドメイン情報の無視という、既存の非対応画像間翻訳手法の限界を是正すること。
- ドメイン分類を明示的な監視として用いることで、翻訳品質と分離性を向上させる可能性を検討すること。
- 事前学習済みのドメイン特徴抽出器を未学習ドメインに転送することで、ゼロショットドメイン転送を実現すること。
- StarGAN ようなモデルが対応しない、データセット内に存在する任意の2枚の画像間での条件付き翻訳を可能にすること。
提案手法
- データセットのドメインラベルを用いて、非対応データ上で分類ネットワークを事前学習し、各画像のドメインを予測する。
- 事前学習済み分類器の最終層から、各入力画像のドメイン固有特徴を抽出する。
- 同じ画像からドメインに依存しない特徴を共有エンコーダーを用いて抽出する。
- ドメイン固有特徴とドメインに依存しない特徴を統合し、生成器ネットワークの入力とする。
- 生成器を adversarial loss と cycle consistency loss を用いて訓練することで、現実的で一貫性のある翻訳を保証する。
- 参照画像のドメイン固有特徴とドメインに依存しない特徴を条件として生成器に与えることで、条件付き翻訳を可能にする。
実験結果
リサーチクエスチョン
- RQ1明示的なドメイン監視が、無教師手法と比較して非対応画像間翻訳の性能を向上させるか?
- RQ2事前学習済みドメイン分類器が、未学習ドメインに効果的に転送可能か?
- RQ3提案フレームワークが、StarGAN ようなモデルとは異なり、データセット内に存在する任意の2枚の画像間での条件付き翻訳を可能にするか?
- RQ4ドメイン固有特徴とドメインに依存しない特徴の分離が、より良い分離性と翻訳品質をもたらすか?
主な発見
- DosGAN は、既存の非対応 GAN よりも顔の属性、アイデンティティ、季節の翻訳ベンチマークで優れた性能を達成する。
- 事前学習済みドメイン特徴抽出器は、微調整なしに、Facescrub から CelebA へのドメイン転送など、未学習ドメインに対しても効果的に一般化する。
- DosGAN は CelebA 内の任意の2枚の画像間での条件付き翻訳を可能にし、StarGAN が対応しない機能を実現する。
- 明示的な監視により、ドメイン固有特徴とドメインに依存しないコンテンツの分離性が向上していることが示された。
- 定量的評価では、複数の翻訳タスクにおいて FID スコアとユーザースタディスコアに顕著な向上が見られた。
- アブレーションスタディにより、明示的なドメイン監視が、より良い翻訳忠実性と分離性に寄与することが確認された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。