QUICK REVIEW

[論文レビュー] VAEBM: A Symbiosis between Variational Autoencoders and Energy-based Models

Zhisheng Xiao, Karsten Kreis|arXiv (Cornell University)|Oct 1, 2020

Generative Adversarial Networks and Image Synthesis参考文献 84被引用数 36

ひとこと要約

VAEBM はデータ空間での VAE ジェネレーターとエネルギーベースモデルを組み合わせ、二段階で訓練することで、サンプリングが高速でモードカバレッジが良い高品質な画像生成を実現します。

ABSTRACT

Energy-based models (EBMs) have recently been successful in representing complex distributions of small images. However, sampling from them requires expensive Markov chain Monte Carlo (MCMC) iterations that mix slowly in high dimensional pixel space. Unlike EBMs, variational autoencoders (VAEs) generate samples quickly and are equipped with a latent space that enables fast traversal of the data manifold. However, VAEs tend to assign high probability density to regions in data space outside the actual data distribution and often fail at generating sharp images. In this paper, we propose VAEBM, a symbiotic composition of a VAE and an EBM that offers the best of both worlds. VAEBM captures the overall mode structure of the data distribution using a state-of-the-art VAE and it relies on its EBM component to explicitly exclude non-data-like regions from the model and refine the image samples. Moreover, the VAE component in VAEBM allows us to speed up MCMC updates by reparameterizing them in the VAE's latent space. Our experimental results show that VAEBM outperforms state-of-the-art VAEs and EBMs in generative quality on several benchmark image datasets by a large margin. It can generate high-quality images as large as 256$\ imes$256 pixels with short MCMC chains. We also demonstrate that VAEBM provides complete mode coverage and performs well in out-of-distribution detection. The source code is available at https://github.com/NVlabs/VAEBM

研究の動機と目的

補完的な強みを活かすために、VAEs と EBMs の組み合わせを動機づける。
VAE でデータ分布のモード構造を捉えつつ、EBM を用いて細部を洗練させ、データでない領域を排除する。
VAE の潜在空間で MCMC を再パラメータ化してサンプリングを高速化する。
実用性と安定性のために、二段階に分解された訓練手順を提供する。
複数の画像ベンチマークで生成品質とモードカバレッジの改善を示す。

提案手法

生成モデルを h_{ψ,θ}(x,z) = (1/Z_{ψ,θ}) p_{θ}(x,z) e^{-E_{ψ}(x)} と定義する。ここで p_{θ}(x,z) は VAE ジェネレーター、E_{ψ}(x) はピクセル空間のエネルギー関数である。
周辺対数尤度を最大化することで訓練する。これは L_VAE と L_EBM の項に分解され、二段階の最適化を可能にする（まず VAE を訓練し θ を固定してから EBM ψ を訓練）。
結合空間 (x,z) および拡張空間 ε = (ε_x, ε_z) からサンプルするためにリパラメータ化を用い、サンプリング時の Langevin ダイナミクスを効率化する。
ネガティブフェーズでは、結合空間 (z,x) でリパラメータ化されたサンプリングを用いて MCMC を行い、混合を速める。
潜在空間の MCMC を実行し、拡張モデルを介してデータ空間と共同で行うことでサンプリングを加速できることを示す。

実験結果

リサーチクエスチョン

RQ1VAE と EBM の統合は、純粋な VAE または純粋な EBM アプローチよりもサンプル品質を向上させるか？
RQ2二段階訓練（最初に VAE、次に EBM）で VAEBMs の安定した最適化と実用的なサンプリングを実現できるか？
RQ3VAEBM は画像データセット上で完全なモードカバレッジと頑健な分布外検出を実現するか？
RQ4標準ベンチマークにおいて、最先端の尤度ベースモデルおよび GAN/スコアベースモデルと比較して VAEBM の性能はどうか？

主な発見

VAEBM は CIFAR-10 および他のベンチマークで、尤度ベース評価の下で従来の EBM および最先端の VAE を上回る。
事前学習済み VAE から初期化された短い MCMC チェーンは、高品質なサンプルをより速く得られる。
VAEBM は GAN やスコアベースモデルと比較して競争力のあるまたは優れた結果を達成しつつ、尤度ベースの訓練の利点を保持する。
このモデルは完全なモードカバレッジと強力な分布外検知を示し（AUROC がいくつかのベースラインより高い）。
CelebA 64、CelebA HQ 256、LSUN Church 64 では、VAEBM は NVAE および関連ベースラインに対して著しい改善を示す（FID 指標）。
2D のおもちゃ実験（25-ガウス分布）で、VAEBM は VAE の尤度を改善し、真の分布によりよく適合する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。