Skip to main content
QUICK REVIEW

[論文レビュー] Improving Inversion and Generation Diversity in StyleGAN using a Gaussianized Latent Space

Jonas Wulff, Antonio Torralba|arXiv (Cornell University)|Sep 14, 2020
Generative Adversarial Networks and Image Synthesis参考文献 17被引用数 26
ひとこと要約

本稿では、中間潜在空間(W+)に非線形変換(leaky ReLU)を適用することで、StyleGANのガウス化された潜在空間を提案する。これにより、取り扱い可能なガウス事前分布が得られ、再構築の安定性と生成の多様性が向上する。本手法は多様性を損なわず、アーチファクトを低減する。FIDスコアと同等の水準を維持しながら、顔の同一性を保持する点で、従来の截断法を上回る性能を発揮する。

ABSTRACT

Modern Generative Adversarial Networks are capable of creating artificial, photorealistic images from latent vectors living in a low-dimensional learned latent space. It has been shown that a wide range of images can be projected into this space, including images outside of the domain that the generator was trained on. However, while in this case the generator reproduces the pixels and textures of the images, the reconstructed latent vectors are unstable and small perturbations result in significant image distortions. In this work, we propose to explicitly model the data distribution in latent space. We show that, under a simple nonlinear operation, the data distribution can be modeled as Gaussian and therefore expressed using sufficient statistics. This yields a simple Gaussian prior, which we use to regularize the projection of images into the latent space. The resulting projections lie in smoother and better behaved regions of the latent space, as shown using interpolation performance for both real and generated images. Furthermore, the Gaussian model of the distribution in latent space allows us to investigate the origins of artifacts in the generator output, and provides a method for reducing these artifacts while maintaining diversity of the generated images.

研究の動機と目的

  • ドメイン外の画像を再構築する際のStyleGANの潜在空間における不安定さと、劣悪な補間性能を解消すること。
  • 中間潜在空間(W+)におけるデータ分布をガウス分布としてモデル化することで、再構築中の正則化を改善すること。
  • 標準的な截断法とは異なり、多様性を減少させることなく、生成画像に生じるアーチファクトを同定・低減すること。
  • 潜在空間再構築に有用な原理的かつデータ駆動型の事前分布を提供し、意味的整合性と画像品質を向上させること。

提案手法

  • 中間潜在ベクトル(W+)に非線形変換(具体的には要素ごとのleaky ReLU)を適用し、データ分布をガウス化する。
  • 変換後の潜在ベクトルの平均μと共分散Σを推定し、閉形式のガウス事前分布を定義する。
  • ガウス事前分布を再構築最適化における正則化項として用い、潜在コード探索を滑らかでより安定した潜在空間領域へ誘導する。
  • ガウス化された潜在空間に対して主成分分析(PCA)を実施し、アーチファクトの原因となる高振幅成分を同定する。
  • 閾値τσを超える成分に対して対数圧縮を適用し、アーチファクトの影響を低減するが、多様性は維持する。
  • 圧縮・再投影された潜在コードから画像を再構築し、アーチファクトが低減され、多様性の高いサンプルを生成する。

実験結果

リサーチクエスチョン

  • RQ1単純な非線形変換を施した後、StyleGANのW+空間におけるデータ分布を効果的にガウス分布としてモデル化できるか?
  • RQ2潜在空間にガウス事前分布を適用することで、ドメイン外画像の再構築における安定性と品質が向上するか?
  • RQ3ガウスモデルを用いて、視覚的多様性を減少させることなく、生成画像のアーチファクトを同定・除去できるか?
  • RQ4高振幅主成分の対数圧縮は、顔の同一性と画像品質の観点で、截断法と比較してどのように優れているか?

主な発見

  • W+ベクトルに要素ごとのleaky ReLUを適用した後、StyleGANの潜在空間は平均と共分散を用いてモデル化可能なガウス分布を示す。
  • 再構築にガウス事前分布を組み込むことで、実画像と生成画像の間の補間性能が著しく向上し、滑らかでより安定した潜在表現が得られる。
  • 高振幅主成分の対数圧縮は、顔画像におけるアーチファクトの低減に効果的である。
  • FIDスコアが截断法と同等の水準である場合、本手法は顔の同一性を顔埋め込み空間におけるコサイン類似度で測定した際に、顕著に優れている。
  • アーチファクトの補正を行っても、截断法よりも高い視覚的多様性を維持し、被検者による評価でも元の入力に近い画像を生成する。
  • 截断法と圧縮のFID曲線は形状が類似しているが、同等のFID値において本手法はより優れた知覚的品質と同一性保持を達成している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。