[論文レビュー] Very Deep VAEs Generalize Autoregressive Models and Can Outperform Them on Images
この論文は非常に深い階層的VAEを導入しており、従来の深さを超えて拡張すると、CIFAR-10、ImageNetの variants、FFHQの高次元画像でPixelCNNベースの自回帰モデルよりも対数尤度が改善され、パラメータ数が少なく、サンプリングが高速になる。
We present a hierarchical VAE that, for the first time, generates samples quickly while outperforming the PixelCNN in log-likelihood on all natural image benchmarks. We begin by observing that, in theory, VAEs can actually represent autoregressive models, as well as faster, better models if they exist, when made sufficiently deep. Despite this, autoregressive models have historically outperformed VAEs in log-likelihood. We test if insufficient depth explains why by scaling a VAE to greater stochastic depth than previously explored and evaluating it CIFAR-10, ImageNet, and FFHQ. In comparison to the PixelCNN, these very deep VAEs achieve higher likelihoods, use fewer parameters, generate samples thousands of times faster, and are more easily applied to high-resolution images. Qualitative studies suggest this is because the VAE learns efficient hierarchical visual representations. We release our source code and models at https://github.com/openai/vdvae.
研究の動機と目的
- 深く積み重ねられた潜在変数が使われたとき、VAEは自然画像の自回帰モデルと同等またはそれを超えることができるかという動機付け。
- 非常に深い階層的VAEアーキテクチャを提案・検証し、多数の確率層へスケール可能であることを示す。
- CIFAR-10、ImageNet(32/64)、FFHQ varianteに対して、対数尤度と効率をPixelCNN/PixelCNN++のベンチマークと empirically 比較する。
- 深さが効率的な階層表現と並列化可能な生成を可能にし、より速いサンプリングへとつながることを示す。
提案手法
- トップダウン因子分解によるN層VAEを定式化する(p(z)=p(z0)p(z1|z0)…; q(z|x)=q(z0|x)q(z1|z0,x)…)。
- Nがデータ次元と等しいときN層VAEは自回帰モデルを一般化し、N次元潜在密度を普遍的に近似できることを主張・証明する。
- ボトルネック残差ブロック、対角ガウスPrior/Posterior、および訓練を安定化させる残差スケーリング(1/√N)を備えた非常に深いVAEアーキテクチャを導入する。
- 後方崩壊を避けるため、ポストeriorの崩壊を避け、KLウォームアップ/フリー・ビット要件を排除するため、最近傍補間を用いたアップサンプリングを用いる。
- 深さを安定化させる勾配スキップヒューリスティックを導入し、深層訓練時の発散更新を回避する。
- CIFAR-10、ImageNet-32、ImageNet-64、FFHQ-256、FFHQ-1024で学習・評価を行い、対数尤度を自回帰ベースラインと比較する。
実験結果
リサーチクエスチョン
- RQ1VAEを十分深くした場合、画像の対数尤度で自回帰モデルと同等またはそれを上回ることができるか。
- RQ2確率的深さ(潜在層の深さ)を増やすことは、総パラメータ数に依らずVAEの性能を改善するか。
- RQ3非常に深いVAEは、並列生成を可能にする効率的な階層表現を学習し、サンプリングを高速化するか。
- RQ4非常に深いVAEはPixelCNNベースのモデルと比較して高解像度画像へどのようにスケールするか。
主な発見
- Very deep VAEsはCIFAR-10、ImageNet-32、ImageNet-64、FFHQ-256、FFHQ-1024でPixelCNNベースのモデルより高い対数尤度を達成する。
- 深さの改善はモデル容量とは独立しており、同様のパラメータ数でより深いモデルが浅いモデルより優れる。
- 非常に深いVAEは効率的な階層表現を学習し、高解像度で多くの潜在変数を並列生成できる。
- PixelCNNベースの自回帰モデルと比較して、Very Deep VAEはパラメータ数を抑えつつ、何千倍も速いサンプリングを実現しつつ、大きな画像へ拡張可能である。
- アーキテクチャは1024x1024画像にも適切にスケールし、サンプリングは高速(単一フォワードパス)を維持する一方、自回帰モデルは多数の評価を必要とする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。