QUICK REVIEW

[論文レビュー] IntroVAE: Introspective Variational Autoencoders for Photographic Image Synthesis

Huaibo Huang, zhihang li|arXiv (Cornell University)|Jul 17, 2018

Generative Adversarial Networks and Image Synthesis被引用数 163

ひとこと要約

IntroVAE は、追加の識別器なしに内省的かつ対抗的な方法で VAE を訓練し、単一ストリーム・単一ステージの高解像度写真画像合成を、最先端のGANと同等の品質に引き出す。

ABSTRACT

We present a novel introspective variational autoencoder (IntroVAE) model for synthesizing high-resolution photographic images. IntroVAE is capable of self-evaluating the quality of its generated samples and improving itself accordingly. Its inference and generator models are jointly trained in an introspective way. On one hand, the generator is required to reconstruct the input images from the noisy outputs of the inference model as normal VAEs. On the other hand, the inference model is encouraged to classify between the generated and real samples while the generator tries to fool it as GANs. These two famous generative frameworks are integrated in a simple yet efficient single-stream architecture that can be trained in a single stage. IntroVAE preserves the advantages of VAEs, such as stable training and nice latent manifold. Unlike most other hybrid models of VAEs and GANs, IntroVAE requires no extra discriminators, because the inference model itself serves as a discriminator to distinguish between the generated and real samples. Experiments demonstrate that our method produces high-resolution photo-realistic images (e.g., CELEBA images at \(1024^{2}\)), which are comparable to or better than the state-of-the-art GANs.

研究の動機と目的

高解像度合成のためのVAE生成画像のぼやけとGANの訓練不安定性に対処する動機づけ。
実データと生成データの差を自己推定する内省的VAEを提案する。
追加の識別器なしでVAEとGAN風の対抗学習を統合した、単純な単一ストリームアーキテクチャを開発する。
安定した訓練と競争力のある品質で高解像度写真画像合成を実証する（例：10242 CelebA-HQ）。

提案手法

VAE推論モデルを識別器として、VAE生成器をGANの生成器として用い、ミニマックスゲームを形成する。
KL発散に基づく正則化による対抗的な分布一致: Eは実データ上でL_REGを最小化し、生成データ上で最大化する；Gは生成データ上でL_REGを最小化する。
対抗目的をELBO再構成目的と統合してハイブリッドなIntroVAE学習目的を作成する。
損失関数: L_E(x,z)=E(x)+[m−E(G(z))]+L_AE(x); L_G(z)=E(G(z))+L_AE(x), ここで E はエンコーダ、G はデコーダ/生成器、L_AE はピクセル単位の再構成項である。
再parameterization トリックを z=μ+σ⊙ε を用い、KL項 L_REG は p(z)=N(0,I) に対して μ, σ から計算する。
GANs に類似した単一ステージ・単一ストリームネットワークで訓練するが、VAE の安定性を保つ。

実験結果

リサーチクエスチョン

RQ1内省的VAE（IntroVAE）は追加の識別器なしで高解像度の写真リアルな画像合成を実現できるか。
RQ2ELBO再構成をミニマックス対戦目的と組み合わせることで、高解像度画像のサンプルのシャープさ・多様性・訓練安定性が改善されるか。
RQ3CelebA-HQ 10242 のデータセットで、単一ストリーム・単一ステージのアーキテクチャは複数段階の GAN（例：PGGAN）に対抗できるか。
RQ4現実的な潜在空間の品質と real 画像間の補間はどうか。

主な発見

手法	MS-SSIM	FID
WGAN-GP [15]	0.2854	0.0587
PGGAN [18]	0.2828	0.0636 / 7.30/8.34
Ours	0.2719	0.0532 / 5.19 / 8.84

IntroVAE は CelebA-HQ 上で高解像度 (10242) の写真リアルな画像を、最先端のGANと同等、あるいはそれ以上に生成する。
訓練は、E(x) が [0, m] の内で安定するよう、損失が平衡へ収束する形で安定性を示す。
MS-SSIM と FID で定量的に競争力のあるサンプル多様性を示し、CELEBA および LSUN BEDROOM データセットでしばしば PGGAN に匹敵または上回る（例：MS-SSIM 0.2719 対 0.2828、FID 0.0532 対 0.0636、CELEBA; LSUN BEDROOM の場合 FID 8.84 対 8.34）。
モデルは高品質な再構成とサンプリングをサポートする；LSUN Bedroom の結果は PGGAN と比較可能。
CelebA-HQ の実画像の潜在空間補間は、性別や横向きなどの属性間で滑らかな連続性を示す。
訓練速度は画像解像度とともにスケールし、1282（0.5日）、2562（1日）、5122（7日）、10242（21日）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。