QUICK REVIEW

[論文レビュー] Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks

Jun-Yan Zhu, Taesung Park|arXiv (Cornell University)|Mar 30, 2017

Generative Adversarial Networks and Image Synthesis参考文献 65被引用数 2,309

ひとこと要約

CycleGANは、サイクル整合性を伴う敵対的損失を用いて、ペアなしの画像ドメイン間の写像を学習し、Monetの絵画と写真のようなドメイン間のペアデータなしでの翻訳を可能にします。

ABSTRACT

Image-to-image translation is a class of vision and graphics problems where the goal is to learn the mapping between an input image and an output image using a training set of aligned image pairs. However, for many tasks, paired training data will not be available. We present an approach for learning to translate an image from a source domain $X$ to a target domain $Y$ in the absence of paired examples. Our goal is to learn a mapping $G: X ightarrow Y$ such that the distribution of images from $G(X)$ is indistinguishable from the distribution $Y$ using an adversarial loss. Because this mapping is highly under-constrained, we couple it with an inverse mapping $F: Y ightarrow X$ and introduce a cycle consistency loss to push $F(G(X)) \approx X$ (and vice versa). Qualitative results are presented on several tasks where paired training data does not exist, including collection style transfer, object transfiguration, season transfer, photo enhancement, etc. Quantitative comparisons against several prior methods demonstrate the superiority of our approach.

研究の動機と目的

XとYの二つのドメイン間の写像を学習することにより、画像間翻訳のためのペア付き訓練データの不足に対処する。
G: X→Y および F: Y→X の写像を正則化するためにサイクル整合性を課し、F(G(X))≈X および G(F(Y))≈Y となるようにする。
敵対的損失を活用して、翻訳画像を対象ドメイン分布に揃えつつ、サイクル損失を通じて構造を保つ。
コレクションスタイル転送、物体の形態変換、季節転送、写真の補正といった多様なタスクに対する適用性を示す。

提案手法

対応する識別器 D_Y および D_X とともに、二つの生成器 G:X->Y および F:Y->X を使用する。
G(X) を Y と見分けられないように、F(Y) を X と見分けられないようにするよう敵対的損失を適用する。
||F(G(x)) - x||_1 および ||G(F(y)) - y||_1 を最小化する L_cyc というサイクル整合性損失を導入する。
λ=10 のとき、L = L_GAN(G,D_Y,X,Y) + L_GAN(F,D_X,Y,X) + λ L_cyc(G,F) に結合する。
Johnson et al. の生成器、PatchGAN識別器、インスタンス正規化のアーキテクチャ選択を採用する。
最小二乗GAN損失と生成画像の履歴を用いて識別器を訓練することで訓練を安定化させる。

実験結果

リサーチクエスチョン

RQ1ペアの例なしに、意味のある内容を保ちながら未ペア画像コレクションを異なるドメイン間で翻訳できるか？
RQ2サイクル整合性は、制約不足の翻訳問題を十分に正則化し、高品質で現実的な写像を生み出すか？
RQ3CycleGAN の翻訳は、教師ありベースラインや他の未ペア手法と多様なタスクでどのように比較されるか？
RQ4敵対的項とサイクル整合性項が翻訳品質に与える影響は何か？

主な発見

CycleGAN は未ペアデータで説得力のある翻訳を達成し、ペア付き訓練なしで supervised pix2pix の品質にしばしば匹敵する。
地図と航空写真では、256×256 解像度で ~26.8% および ~23.2% の試行で人間評価者を本物 vs 偽物と誤認させた。
Cityscapes のタスクでは、ラベル-to-photo および photo-to-label 指標で CycleGAN がいくつかのベースラインを上回り、弱教師ありのベースラインのいくつかに近づく、または上回る。
アブレーション研究では、GAN損失またはサイクル整合性損失のどちらかを除去すると性能が低下し、完全な CycleGAN が最良の結果を提供することを示している。
この手法は、コレクションスタイル転送、物体の形態変換、季節転送、写真の補正など、複数の応用に一般化できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。