[論文レビュー] Very Deep VAEs Generalize Autoregressive Models and Can Outperform Them on Images
この論文は、非常に深い階層的VAEが、画像の対数尤度において自己回帰 PixelCNN を上回り得る一方で、パラメータ数を削減し、サンプリングをより高速化できることを、効率的な階層表現を学習することによって示している。
We present a hierarchical VAE that, for the first time, generates samples quickly while outperforming the PixelCNN in log-likelihood on all natural image benchmarks. We begin by observing that, in theory, VAEs can actually represent autoregressive models, as well as faster, better models if they exist, when made sufficiently deep. Despite this, autoregressive models have historically outperformed VAEs in log-likelihood. We test if insufficient depth explains why by scaling a VAE to greater stochastic depth than previously explored and evaluating it CIFAR-10, ImageNet, and FFHQ. In comparison to the PixelCNN, these very deep VAEs achieve higher likelihoods, use fewer parameters, generate samples thousands of times faster, and are more easily applied to high-resolution images. Qualitative studies suggest this is because the VAE learns efficient hierarchical visual representations. We release our source code and models at https://github.com/openai/vdvae.
研究の動機と目的
- VAE が画像密度推定で自己回帰モデルと同等または上回るか評価する動機づけ。
- 従来の研究を超える深さを拡張した非常に深い階層VAEを提案。
- 深さを自己回帰能力のある表現へ向かう道として理論的に正当化。
- CIFAR-10, ImageNet (32/64), FFHQ-256, FFHQ-1024 で非常に深い VAEs を PixelCNN ベースモデルと実証的に比較。
提案手法
- 多層の確率的レイヤを持つトップダウンの非常に深い階層VAEを導入。
- ResNetベースのボトルネックブロック設計と残差スケーリングを用いて、約70層までの学習を安定化。
- 後方崩壊と KL ウォームアップを避けるため、アップサンプリングは最近傍補間を使用。
- N層VAEが自己回帰モデルを一般化し、N次元潜在密度を一様に近似できるという理論命題を提供。
- 複数の画像ベンチマークで学習し、対数尤度、パラメータ数、サンプリング速度を自己回帰PixelCNNベースモデルと比較。
実験結果
リサーチクエスチョン
- RQ1十分に深い潜在階層を持つVAEは自然画像の対数尤度で自己回帰モデルと同等またはそれを超えられるか。
- RQ2深さはVAEのより良い潜在表現と高速で並列生成につながるか。
- RQ3標準的な画像ベンチマークにおいて、PixelCNNベースモデルと比較して、対数尤度・パラメータ・サンプリング速度の点で非常に深いVAEはどうか。
- RQ4過度な深さのVAEを安定して訓練させ、ポスタリオト崩壊を回避する設計上の選択肢は?
- RQ5非常に深いVAEはFFHQ-1024のような高解像度にも実用的なサンプリング時間でスケールするか?
主な発見
| モデルタイプ | パラメータ | 深さ | サンプリング | NLL |
|---|---|---|---|---|
| PixelCNN++ (Salimans et al., 2017) | 53M ∗ | (empty) | D | 2.92 |
| PixelSNAIL (Chen et al., 2017) | (empty) | (empty) | D | 2.85 |
| Sparse Transformer (Child et al., 2019) | 59M | (empty) | D | 2.80 |
| VLAE (Chen et al., 2016) | (empty) | (empty) | D | ≤2.95 |
| IAF-VAE (Kingma et al., 2016) | (empty) | 12 | D | ≤3.11 |
| Flow++ (Ho et al., 2019) | 31M | 1 | D | ≤3.08 |
| BIVA (Maaløe et al., 2019) | 103M | 15 | 1 | ≤3.08 |
| NVAE (Vahdat & Kautz, 2020) | 131M | 30 | 1 | ≤2.91 |
| Very Deep VAE (ours) | 39M | 45 | 1 | ≤2.87 |
| Gated PixelCNN (ImageNet-32) | 177M ∗ | 10 | D | 3.83 |
| Image Transformer (Parmar et al., 2018) | (empty) | (empty) | D | 3.77 |
| BIVA (ImageNet-32) | 103M ∗ | 15 | 1 | ≤3.96 |
| NVAE (ImageNet-32) | 268M | 28 | 1 | ≤3.92 |
| Flow++ (ImageNet-32) | 169M | (empty) | 1 | ≤3.86 |
| Very Deep VAE (ImageNet-32) | 119M | 78 | 1 | ≤3.80 |
| Gated PixelCNN (ImageNet-64) | 177M ∗ | (empty) | D | 3.57 |
| SPN (Menick & Kalchbrenner, 2018) | 150M | (empty) | (empty) | 3.52 |
| Sparse Transformer (ImageNet-64) | 152M | (empty) | (empty) | 3.44 |
| Glow (Kingma & Dhariwal, 2018) | (empty) | (empty) | 1 | 3.81 |
| Flow++ (ImageNet-64) | 73M | (empty) | 1 | ≤3.69 |
| Very Deep VAE (ImageNet-64) | 125M | 75 | 1 | ≤3.52 |
| FFHQ-256 (5 bit) NVAE | 36 | 1 | ≤0.68 | |
| FFHQ-256 (5 bit) Very Deep VAE | 115M | 62 | 1 | ≤0.61 |
| FFHQ-1024 (8 bit) Very Deep VAE | 115M | 72 | 1 | ≤2.42 |
- 深さは総キャパシティに関係なく対数尤度を向上させ、すべての評価ベンチマークでPixelCNNを上回る。
- 非常に深いVAEはPixelCNNベースモデルよりパラメータが少なく、サンプリングも高速(サンプルごとに1回の前方伝播)。
- より大きな確率的深さを持つモデルは、パラメータ数をほぼ同じか少なく保った場合でも優れた性能を示す。
- 定性的分析では、低解像度でグローバル構造を捉え、高解像度で局所的テクスチャを捉える効率的な階層表現を学習し、層間で並列生成を可能にする。
- Very deep VAEは高解像度データにスケールし、サンプリングを速くし、対数尤度も競争力を保つ(例:FFHQ-1024で72層、2.42 NLL)。
- ImageNet-32/64で、非常に深いVAEは最先端または競合的な対数尤度を、他の多くの自己回帰ベースに比べてはるかに少ないパラメータで達成。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。