QUICK REVIEW

[論文レビュー] Adversarial Symmetric Variational Autoencoder

Yunchen Pu, Weiyao Wang|ArXiv.org|Nov 14, 2017

Generative Adversarial Networks and Image Synthesis参考文献 39被引用数 36

ひとこと要約

本稿では、データとコードの同時分布の間の対称的Kullback-Leibler発散を最小化し、同時に周辺尤度を最大化することで、再構成と生成を統合的に最適化する生成モデルであるAdversarial Symmetric Variational Autoencoder（AS-VAE）を提案する。MNIST、CIFAR-10、ImageNetの各データセットにおいて、先行モデルより優れた性能を示し、高品質なサンプルと高速な推論を実現した。

ABSTRACT

A new form of variational autoencoder (VAE) is developed, in which the joint distribution of data and codes is considered in two (symmetric) forms: ($i$) from observed data fed through the encoder to yield codes, and ($ii$) from latent codes drawn from a simple prior and propagated through the decoder to manifest data. Lower bounds are learned for marginal log-likelihood fits observed data and latent codes. When learning with the variational bound, one seeks to minimize the symmetric Kullback-Leibler divergence of joint density functions from ($i$) and ($ii$), while simultaneously seeking to maximize the two marginal log-likelihoods. To facilitate learning, a new form of adversarial training is developed. An extensive set of experiments is performed, in which we demonstrate state-of-the-art data reconstruction and generation on several image benchmark datasets.

研究の動機と目的

独立したVAEとGANの限界を克服し、高精細なデータ再構成と現実的な画像生成を両立する深層生成モデルの開発。
GANにおける可逆的推論の欠如を解消するため、エンコーダとデコーダを統合し、事後分布推論と尤度の定量的評価を可能にする。
従来のVAEが示すぼやけた生成と劣悪な再構成を是正するため、データとコードの尤度を同時に最適化する対称的変分下界を導入する。
データとコードの同時分布に対する対称的KL発散フレームワークを用いた敵対的学習を活用することで、訓練の安定性と性能を向上させる。
ImageNetのような大規模データセットに対しても、高品質なサンプルと効率的な推論を維持したままスケーリング可能なモデルの構築。

提案手法

本モデルは、観測されたデータと潜在変数の期待対数尤度を同時に最適化する対称的変分下界を導入し、両者の学習をバランスよく保証する。
エンコーダとデコーダがそれぞれモデル化するデータとコードの同時分布の間の対称的Kullback-Leibler発散を最小化することで、両方向の整合性を促進する。
対称的KL発散を推定し、生成サンプルおよび再構成の品質を向上させるために、新規の敵対的訓練スキームを考案する。
確率的エンコーダ $ q_\phi(\mathbf{z}|\mathbf{x}) $ と確率的デコーダ $ p_\theta(\mathbf{x}|\mathbf{z}) $ を用い、両者とも深層ニューラルネットワークとして実装する。
生成器（デコーダ）と識別器の両方を、データとコードを双対的とみなす対称的でGAN風の目的関数に基づいて訓練する。
両者のマージナル尤度を最大化し、対称的KL発散を最小化する統合的目的関数を用いてエンドツーエンドで学習することで、忠実な再構成と現実的な生成を両立する。

実験結果

リサーチクエスチョン

RQ1データとコードの尤度を同時に最適化する対称的変分下界を構築可能か？その結果、再構成と生成の両方の性能が向上するか？
RQ2敵対的学習を、エンコーダとデコーダが導くデータとコードの同時分布の間の対称的KL発散を最小化するように適応可能か？
RQ3提案されたAS-VAEは、MNIST、CIFAR-10、ImageNetといった多様なベンチマークで、画像再構成と生成の両面で最先端の性能を達成するか？
RQ4負の対数尤度、インセプションスコア、再構成誤差の観点から、既存のモデルと比較してAS-VAEはどのように差をつけるか？
RQ5ImageNetのような大規模データセットに対しても、高品質なサンプルと効率的な推論を維持したまま、効果的にスケーリング可能か？

主な発見

MNISTでは、AS-VAEは82.51 natsの負の対数尤度を達成し、正規化流れ（85.1 nats）を上回り、最先端モデルに近い性能を示した。
AS-VAE-rは79.2 natsに近い81.14 natsを達成し、最先端水準（79.2 nats）と競合する結果となり、優れた再構成能力を示した。
CIFAR-10では、ALIや他の敵対的訓練モデルを上回る生成品質を達成し、RMSEの再構成誤差も低く抑えられた。
ImageNetでは、モード崩壊を示さず、鮮明で高品質な画像を生成し、DCGANやPixelCNN++を上回るサンプル品質を達成した。1枚あたりの推論時間は単一GPUで0.01秒であった。
CIFAR-10では1エポックあたり52.0秒（4時間）の訓練時間であり、PixelCNN++（1エポック44時間）よりも顕著に高速であった。
定性的な結果から、AS-VAEは敵対的訓練を行っても再構成忠実度が低いALIよりも、より忠実な再構成を実現していることが明らかになった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。