QUICK REVIEW

[論文レビュー] Toward Multimodal Image-to-Image Translation

Jun-Yan Zhu, Richard Zhang|arXiv (Cornell University)|Nov 30, 2017

Generative Adversarial Networks and Image Synthesis参考文献 57被引用数 739

ひとこと要約

本論文は BicycleGAN を紹介する。多モーダル条件付き画像間翻訳モデルのファミリーで、潜在コードと出力間の双方向リンクを課すことで多様で現実的な結果を生み出し、従来の GAN ベースのアプローチで生じるモード崩壊に対処します。

ABSTRACT

Many image-to-image translation problems are ambiguous, as a single input image may correspond to multiple possible outputs. In this work, we aim to model a \emph{distribution} of possible outputs in a conditional generative modeling setting. The ambiguity of the mapping is distilled in a low-dimensional latent vector, which can be randomly sampled at test time. A generator learns to map the given input, combined with this latent code, to the output. We explicitly encourage the connection between output and the latent code to be invertible. This helps prevent a many-to-one mapping from the latent code to the output during training, also known as the problem of mode collapse, and produces more diverse results. We explore several variants of this approach by employing different training objectives, network architectures, and methods of injecting the latent code. Our proposed method encourages bijective consistency between the latent encoding and output modes. We present a systematic comparison of our method and other variants on both perceptual realism and diversity.

研究の動機と目的

あいまいな画像間翻訳タスクに対して、妥当な出力の分布をモデル化する動機づけ。
入力に存在しない出力モダリティを捉えるための低次元の潜在空間を開発する。
潜在コードと出力の間に双射的一貫性を課し、モード崩壊を緩和する。
現実性と多様性を最大化するため、複数の学習目的とアーキテクチャを探索・比較する。
条件付き VAE-GAN と潜在回帰器アプローチを組み合わせた統一フレームワーク（BicycleGAN）を提供する。

提案手法

pix2pix を、事前分布 p(z) からサンプルされた低次元潜在コード z を追加することで拡張し、多様な出力 G(A, z) を生成する。
3 つのアプローチを導入・比較する: cVAE-GAN (B を B からエンコードし KL 正則化を行う), cLR-GAN (潜在回帰器が G(A, z) から z の回復を強制), そしてそれらの組み合わせを BicycleGAN に。
双方向制約を課す: B -> z -> G(A, z) および z -> G(A, z) -> E(G(A, z)) により、単射性マッピングとより豊かなモード被覆を確保する。
2 つのエンコーダ（E CNN または E ResNet）と 2 つの識別器（異なるスケールの PatchGAN を 2 台）を用い、U-Net ジェネレータを搭載し、適用可能な箇所で Least Squares GAN 損失と L1 再構成項で学習する。
ジェネレータへ z を add_to_input または add_to_all のいずれかで注入し、異なる統合戦略を探索する。

実験結果

リサーチクエスチョン

RQ1条件分布 p(B|A) をモデル化し、A に忠実でありながら多様な出力をサンプルできるだろうか？
RQ2潜在コードと出力間の双方向一貫性を課すことで、現実性を保ちつつモード崩壊を低減できるか？
RQ3標準的な多モーダル翻訳タスクにおける現実性と多様性の観点で、cVAE-GAN、cLR-GAN、およびそれらの組み合わせ（BicycleGAN）はどう比較されるか？
RQ4エンコーダのアーキテクチャと潜在コードの注入方法が再構成と多様性に与える影響は？
RQ5潜在コード長はデータセット全体で多様性と現実性にどう影響するか？

主な発見

BicycleGAN はベースライン手法より現実性と多様性が高く、いくつかの変種で観察されるモード崩壊には陥らない。
LPIPS で測定された多様性は、cVAE-GAN、cVAE-GAN++、cLR-GAN、および BicycleGAN がベースラインより高く、現実性は Hybrid 目的で向上する。
cLR-GAN 単独では深刻なモード崩壊（約 15% の同一出力）を招く可能性があるが、完全な BicycleGAN は崩壊を回避し、最も高い現実性を示す。
エンコーダの選択は潜在エンコードの品質に影響を与え、E ResNet は一般に E CNN より潜在再構成の精度が高く、性能に影響する。
2 つの潜在注入法（add_to_input と add_to_all）は性能がほぼ同等で、最終結果では add_to_all の方を好む。
潜在コード長は重要で、極端に小さい z は多様性を制限し、非常に大きい z はサンプリングの妨げになり得る。最適な長さはデータセットに依存する。）

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。