Skip to main content
QUICK REVIEW

[論文レビュー] Generating High Fidelity Images with Subscale Pixel Networks and Multidimensional Upscaling

Jacob Menick, Nal Kalchbrenner|arXiv (Cornell University)|Dec 4, 2018
Cell Image Analysis Techniques参考文献 8被引用数 51
ひとこと要約

本論文は Subscale Pixel Networks (SPN) と Multidimensional Upscaling を導入し、大規模解像度で高忠実度の8ビット画像を生成し、CelebA-HQ-256 および ImageNet-128/256 において最先端の尤度と一貫性のあるサンプルを達成する。

ABSTRACT

The unconditional generation of high fidelity images is a longstanding benchmark for testing the performance of image decoders. Autoregressive image models have been able to generate small images unconditionally, but the extension of these methods to large images where fidelity can be more readily assessed has remained an open problem. Among the major challenges are the capacity to encode the vast previous context and the sheer difficulty of learning a distribution that preserves both global semantic coherence and exactness of detail. To address the former challenge, we propose the Subscale Pixel Network (SPN), a conditional decoder architecture that generates an image as a sequence of sub-images of equal size. The SPN compactly captures image-wide spatial dependencies and requires a fraction of the memory and the computation required by other fully autoregressive models. To address the latter challenge, we propose to use Multidimensional Upscaling to grow an image in both size and depth via intermediate stages utilising distinct SPNs. We evaluate SPNs on the unconditional generation of CelebAHQ of size 256 and of ImageNet from size 32 to 256. We achieve state-of-the-art likelihood results in multiple settings, set up new benchmark results in previously unexplored settings and are able to generate very high fidelity large scale samples on the basis of both datasets.

研究の動機と目的

  • 無条件の高忠実度な大規模画像生成の課題に対処する。
  • 大規模画像のためのメモリ効率および計算効率の高い自己回帰デコーダを開発する。
  • 中間の SPN ステージを介して画像をサイズと深さの両方で拡大する Multidimensional Upscaling を提案する。
  • 複数の解像度で CelebA-HQ-256 および ImageNet において最先端の尤度を実証する。

提案手法

  • Subscale Pixel Network (SPN) を導入し、前に生成されたスライスに条件付けて画像スライスを生成する。
  • メモリ効率の高いデコードで長距離依存をカバーするためにサブスケール順序を使用する。
  • より大きく、より深い画像を段階的に構築するためのサイズ拡張デコーダと深さ拡張デコーダを訓練する。
  • Multidimensional Upscaling を適用して最初に粗いビット数(深さ)を生成し、段階的に完全な8ビット深度へと洗練させる。
  • SPNデコーダで自己注意とマスク付き畳み込みの組み合わせを用いて、前のスライスからの文脈を埋め込み、統合する。
  • 訓練時にはターゲットスライス上で無偏モンテカルロ推定を用いた最大似然学習で学習する。

実験結果

リサーチクエスチョン

  • RQ1SPNはグローバルな一貫性を失うことなく、相互に挿入されたスライスに分解して大規模画像を効率的にモデル化できるか。
  • RQ2Multidimensional Upscaling(サイズと深さのアップスケーリング)は大規模データセットでサンプルの忠実度と尤度を改善するか。
  • RQ3SPNはCelebA-HQ-256およびImageNetの複数の解像度で従来の自己回帰モデルとどう比較されるか。
  • RQ4深さアップスケーリングとスライスベースの条件付けがサンプル品質と忠実度に与える影響は何か。

主な発見

  • SPNは32x32スライスを処理することで、256x256画像のメモリおよび計算効率の高い自己回帰生成を実現する。
  • Multidimensional Upscalingはサンプル忠実度と尤度を大幅に向上させ、巨大規模で高忠実度の8-bitサンプルを可能にする。
  • SPNはCelebA-HQ-256およびImageNet-128/256のベンチマークで最先端の尤度を達成する。
  • 深さアップスケーリングとスライスベースの条件付けは、ベースラインと比べて意味的に一貫性のあるサンプルを生み出す。
  • 無条件サンプルはサンプリング過程を変えることなく、強いグローバルな整合性とディテールを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。