Skip to main content
QUICK REVIEW

[論文レビュー] Generating High Fidelity Images with Subscale Pixel Networks and Multidimensional Upscaling

Jacob Menick, Nal Kalchbrenner|arXiv (Cornell University)|Dec 4, 2018
Cell Image Analysis Techniques被引用数 58
ひとこと要約

論文は Subscale Pixel Networks (SPN) と Multidimensional Upscaling を導入し、条件なしで最大256x256の高忠実度8-bit画像を生成。最先端の尤度と大規模サンプルの一貫性を達成。CelebA-HQ-256 および ImageNet-128/256 で強力な性能を示し、スケーラブルでメモリ効率の良い訓練を実現。

ABSTRACT

The unconditional generation of high fidelity images is a longstanding benchmark for testing the performance of image decoders. Autoregressive image models have been able to generate small images unconditionally, but the extension of these methods to large images where fidelity can be more readily assessed has remained an open problem. Among the major challenges are the capacity to encode the vast previous context and the sheer difficulty of learning a distribution that preserves both global semantic coherence and exactness of detail. To address the former challenge, we propose the Subscale Pixel Network (SPN), a conditional decoder architecture that generates an image as a sequence of sub-images of equal size. The SPN compactly captures image-wide spatial dependencies and requires a fraction of the memory and the computation required by other fully autoregressive models. To address the latter challenge, we propose to use Multidimensional Upscaling to grow an image in both size and depth via intermediate stages utilising distinct SPNs. We evaluate SPNs on the unconditional generation of CelebAHQ of size 256 and of ImageNet from size 32 to 256. We achieve state-of-the-art likelihood results in multiple settings, set up new benchmark results in previously unexplored settings and are able to generate very high fidelity large scale samples on the basis of both datasets.

研究の動機と目的

  • 長距離依存関係を効率的に捉えつつ、条件なしの高忠実度で大規模な画像生成という課題に取り組む。
  • サブスケールスライシングを用いて、減少したメモリと計算量で広大な画像文脈を扱うデコーダーアーキテクチャを開発する。
  • 視覚的に意味のあるビットに焦点を当てつつ、画像品質を段階的に高める深さとサイズのアップスケーリング戦略を提案する。
  • CelebA-HQ-256 および ImageNet データセットの複数の解像度で、最先端のMLEスコアと高忠実度サンプルを実証する。

提案手法

  • Subscale Pixel Network (SPN) を導入し、画像を相互に挿入されたスライス(subscales)の列としてデコードする。
  • 以前に生成されたスライスを埋め込む条件付ネットワークと、スライス間で共有重量を用いてターゲットスライスを予測するデコーダを使用する。
  • スライスに分解された対数尤度目的関数で訓練し、この目的関数をモンテカルロ推定でサンプリングする。
  • 異なる SPN を用いた中間階段を通じて、サイズと深さを成長させる Multidimensional Upscaling を適用する。
  • 小さなデコーダーから最初のスライスを生成し、残りをそれに条件付けることでサイズアップスケーリングを実装する。
  • 最も重要なビットを最初に生成し、追加段階を通じて徐々に精細化することで深さアップスケーリングを実装する。

実験結果

リサーチクエスチョン

  • RQ1SPNは大規模な画像でも長距離の空間依存性を efficiently 捕捉しつつ、メモリと計算量を管理可能な範囲に保てるか?
  • RQ2多次元アップスケーリング(サイズと深さ)は、高解像度の画像データセットでサンプルの忠実度と尤度を向上させるか?
  • RQ3従来の自己回帰モデルと比べて、深さアップスケーリングおよび/またはサイズアップスケーリングを用いた SPN は CelebA-HQ-256 および ImageNet の 128x128 および 256x256 でどのように性能を示すか?
  • RQ4ImageNet および CelebA-HQ データセットに対して、SPN を multidimensional upscaling で適用した場合の log-likelihood(bits/dim)の定量的利得はベースラインと比較してどの程度か?

主な発見

  • SPN は 32x32 のスライスを処理することで、全体の 256x256 画像の代わりにメモリと計算を効率化し、S=8 で最大 64x のメモリ削減を実現。
  • ImageNet 128x128 で、SPN は Parallel Multiscale PixelCNN に対して log-likelihood を 3.55 から 3.08 bits/dim に改善。
  • ImageNet 256x256 で、深さアップスケーリングを用いて 2.97 bits/dim を達成し、いくつかのベースラインを上回る。
  • CelebA-HQ 256x256 (8-bit) で、SPN は最先端の MLE スコアと GAN ベースのアプローチと競合する高忠実度サンプルを実現。
  • 深さアップスケーリングはサンプルの意味的一貫性を向上させ、 multidimensional upscaling は全体のサンプル成功率を高める。
  • SPN は 128x128 および 256x256 で高忠実度の unconditional サンプルを実現し、従来の自己回帰法と比較して尤度とサンプル品質の大幅な改善をもたらす。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。