QUICK REVIEW

[論文レビュー] NVAE: A Deep Hierarchical Variational Autoencoder

Arash Vahdat, Jan Kautz|arXiv (Cornell University)|Jul 8, 2020

Generative Adversarial Networks and Image Synthesis参考文献 79被引用数 378

ひとこと要約

NVAE は、深さ方向分離可能な畳み込みと残差後部パラメータ化を備えた深い階層型 VAE を設計し、いくつかの画像データセットで最先端の非自己回帰尤度を達成しつつ、大規模な画像生成を可能にします。

ABSTRACT

Normalizing flows, autoregressive models, variational autoencoders (VAEs), and deep energy-based models are among competing likelihood-based frameworks for deep generative learning. Among them, VAEs have the advantage of fast and tractable sampling and easy-to-access encoding networks. However, they are currently outperformed by other models such as normalizing flows and autoregressive models. While the majority of the research in VAEs is focused on the statistical challenges, we explore the orthogonal direction of carefully designing neural architectures for hierarchical VAEs. We propose Nouveau VAE (NVAE), a deep hierarchical VAE built for image generation using depth-wise separable convolutions and batch normalization. NVAE is equipped with a residual parameterization of Normal distributions and its training is stabilized by spectral regularization. We show that NVAE achieves state-of-the-art results among non-autoregressive likelihood-based models on the MNIST, CIFAR-10, CelebA 64, and CelebA HQ datasets and it provides a strong baseline on FFHQ. For example, on CIFAR-10, NVAE pushes the state-of-the-art from 2.98 to 2.91 bits per dimension, and it produces high-quality images on CelebA HQ. To the best of our knowledge, NVAE is the first successful VAE applied to natural images as large as 256$ imes$256 pixels. The source code is available at https://github.com/NVlabs/NVAE .

研究の動機と目的

高品質な画像生成に合わせて深い階層型 VAE アーキテクチャを設計する。
多くの潜在グループを含む非常に深い VAE の学習を安定化させる。
大規模な画像のためのメモリ効率とサンプリング速度を向上させる。

提案手法

生成モデルに深さ方向分離可能な畳み込みを導入し、受容野を効率的に拡大する。
近似後部を事前分布に対して残差パラメータ化して KL項を安定化させる。
スペクトル正則化を適用してリプシッツ定数を制限し、学習を安定化させる。
調整されたモーメントを持つバッチ正規化と BN-活性化の組み合わせを取り入れて学習安定性を改善する。
メモリ使用量を削減するために混合精度学習と勾配チェックポイントを採用する。
ポータルエンコーダに任意で軽量な正規化フローを適用して後部の表現力を高める。

実験結果

リサーチクエスチョン

RQ1慎重に設計された深い階層型 VAE は、標準的な画像データセットで既存の非自己回帰尤度ベースモデルを上回ることができるか？
RQ2大規模な画像に対して、どのようなアーキテクチャの選択（畳み込み、正規化、活性化、残差パラメータ化）が VAE の学習安定性を最も改善するか？
RQ3256×256 解像度の深い VAE において、メモリ節約および計算節約技術が学習とサンプリングの効率にどう影響するか？
RQ4エンコーダに正規化フローを追加することで、安定性を損なうことなく検証用対数尤度を有意に改善できるか？

主な発見

方法	MNIST	CIFAR-10	ImageNet	CelebA	CelebA HQ	FFHQ
NVAE w/o flow	78.01	2.93	-	2.04	-	0.71
NVAE w/ flow	78.19	2.91	3.92	2.03	0.70	0.69

NVAE は MNIST、CIFAR-10、CelebA 64、CelebA HQ-256 において非自己回帰尤度ベースモデルの最先端を達成し、FFHQ-256 の強力なベースラインでもある。
CIFAR-10 では、NVAE は次元あたり 2.98 から 2.91 に改善。
NVAE は高品質な 256×256 画像を生成でき、標準の VAE 目的関数を変更せずにそれを行う最初期の VAE の一つである。
無条件デコーダーのおかげでサンプリングは高速で、Titan V GPU で1枚あたり 56 ms（バッチサイズ 36）。
アブレーション実験は、Swish 活性化を用いた BN と SE、深さ方向分離可能な生成セル、SR、残差後部パラメータ化が性能と安定性の向上に寄与することを示す。
メモリ削減技術（混合精度と勾配チェックポイント）は、学習スループットをおおよそ倍増させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。