Skip to main content
QUICK REVIEW

[論文レビュー] Generating Diverse High-Fidelity Images with VQ-VAE-2

Ali Razavi, Aäron van den Oord|arXiv (Cornell University)|Jun 2, 2019
Generative Adversarial Networks and Image Synthesis参考文献 35被引用数 106
ひとこと要約

二段階階層: VQ-VAE で離散潜在コードを学習し、その後強力な自己回帰事前分布(PixelCNN with self-attention)でそれらをモデル化して、高忠実度・多様性のある画像を大規模に生成します。

ABSTRACT

We explore the use of Vector Quantized Variational AutoEncoder (VQ-VAE) models for large scale image generation. To this end, we scale and enhance the autoregressive priors used in VQ-VAE to generate synthetic samples of much higher coherence and fidelity than possible before. We use simple feed-forward encoder and decoder networks, making our model an attractive candidate for applications where the encoding and/or decoding speed is critical. Additionally, VQ-VAE requires sampling an autoregressive model only in the compressed latent space, which is an order of magnitude faster than sampling in the pixel space, especially for large images. We demonstrate that a multi-scale hierarchical organization of VQ-VAE, augmented with powerful priors over the latent codes, is able to generate samples with quality that rivals that of state of the art Generative Adversarial Networks on multifaceted datasets such as ImageNet, while not suffering from GAN's known shortcomings such as mode collapse and lack of diversity.

研究の動機と目的

  • 高品質と多様性でGANを凌駕する、高解像度画像生成の確率モデルベースでスケーラブルなアプローチを動機づけ、実証する。
  • 階層的な VQ-VAE を活用して画像を離散潜在表現に圧縮し、潜在空間での効率的な自己回帰モデリングを可能にする。
  • 大きな画像に対するピクセル空間サンプリングより潜在空間サンプリングがはるかに高速であることを示す。

提案手法

  • 256x256 画像を下位 64x64、上位 32x32 の離散潜在へエンコードする2レベル階層的 VQ-VAE を訓練する。
  • エンコーダ出力を共有コードブックで量子化し、コードブックとコミットメント項を含む VQ-VAE 損失で最適化し、コードブックを指数移動平均で更新する。
  • 自己注意付き PixelCNN を用いて離散潜在に対する強力な自己回帰事前分布を適合させる: 32x32 潜在のトップレベル事前分布(グローバル構造)と、トップ潜在に条件付けられた 64x64 潜在のボトムレベル事前分布(局所的ディテール)。
  • クラスラベルに条件付けを行い、トップレベルでマルチヘッド自己注意、ボトムレベルで長距離・局所依存を捉える大きな conditioning スタックを使用する。
  • クラスifier ベースの拒否サンプリングを実施して、多様性とサンプル品質のトレードオフを調整する(事前訓練済み ImageNet 分類器で評価)。
  • NLL と再構成誤差、適合率/再現率のトレードオフ、CAS、FID/IS 指標で評価し、BigGAN-deep および再構成と比較する。

実験結果

リサーチクエスチョン

  • RQ1階層的な VQ-VAE と自己回帰事前が、大規模解像度で高忠実度・グローバルに整合した画像を生成できるか?
  • RQ2離散潜在空間でのモデリングは、ピクセル空間の自己回帰モデルより高速なサンプリングと多様性を提供するか?
  • RQ3提案手法は、ImageNet や FFHQ のようなデータセットで品質と多様性の点で最先端の GAN と比較してどうか?
  • RQ4クラスifierベースの拒否サンプリングは、SGD 訓練の不安定さなしに、制御可能な多様性と品質のトレードオフを提供できるか?

主な発見

  • ImageNet (256x256) のクラス条件付きサンプルは高忠実度を達成し、最先端の GAN に競合する品質を示す。
  • 階層的潜在アプローチは広範な多様性を生み出し、定性的比較では複数クラスで BigGAN-deep より忠実度と多様性が高いと見られる。
  • 定量指標は強い一般化を示し(トレーニング/検証の NLL が近い)、拒否サンプリングによる精度と再現性の改善は品質と多様性の両方を向上させる。
  • CAS の結果は VQ-VAE の再構成と分類器評価が BigGAN-deep よりトップ1/top-5 の精度を高めることを示す(実データでは高い)。
  • FFHQ-1024 では三段階階層が長距離依存を捉え、広い解像度でリアルな顔を生成する。
  • 全体として、潜在空間での自己回帰モデリングは、大規模で高忠実度な画像生成への単純で効果的な道を提供し、GAN のモード崩壊の懸念を緩和する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。