Skip to main content
QUICK REVIEW

[論文レビュー] Glow: Generative Flow with Invertible 1x1 Convolutions

Diederik P. Kingma, Prafulla Dhariwal|arXiv (Cornell University)|Jul 9, 2018
Generative Adversarial Networks and Image Synthesis参考文献 24被引用数 179
ひとこと要約

Glow は、フローべースの生成モデルに可逆の1×1畳み込みを導入し、対数尤度を改善し、現実的な高解像度画像の合成と潜在空間操作を可能にする。

ABSTRACT

Flow-based generative models (Dinh et al., 2014) are conceptually attractive due to tractability of the exact log-likelihood, tractability of exact latent-variable inference, and parallelizability of both training and synthesis. In this paper we propose Glow, a simple type of generative flow using an invertible 1x1 convolution. Using our method we demonstrate a significant improvement in log-likelihood on standard benchmarks. Perhaps most strikingly, we demonstrate that a generative model optimized towards the plain log-likelihood objective is capable of efficient realistic-looking synthesis and manipulation of large images. The code for our model is available at https://github.com/openai/glow

研究の動機と目的

  • 高次元画像に対する尤度ベースの生成モデルの進展。
  • 固定チャネル置換を置換する学習可能な可逆の1×1畳み込みを導入する。
  • actnorm、可逆の1×1畳み込み、そしてアフィン結合をマルチスケールのフローに組み合わせる。
  • CIFAR-10、ImageNet、LSUN、CelebA-HQデータセットで対数尤度の改善を示す。
  • 高解像度画像の合成と意味のある潜在空間操作を紹介する。

提案手法

  • actnorm、可逆の1×1畳み込み、そしてアフィン結合の一連のステップとして生成フローを構築する。
  • 次元を徐々に処理・因数分解するマルチスケールアーキテクチャを用いる。
  • 三角ヤコビアンを用いて正確なヤコビアン行列式で対数尤度を計算する。
  • 安定した学習のためデータ依存の活性化(actnorm)で初期化する。
  • 固定チャネル置換を学習可能な可逆の1×1畳み込みに置換する(効率のためにLUパラメータ化をオプションで使用)。
  • アイデンティティマッピングとして開始するため、NN出力をゼロ初期化したアフィン結合層を採用する。

実験結果

リサーチクエスチョン

  • RQ1可逆の1×1畳み込みを備えたフロー ベースのモデルは、RealNVPを超える標準的な画像ベンチマークで対数尤度を改善できるか?
  • RQ2Glowは、扱いやすい正確な尤度を維持しつつ、効率的な高解像度画像合成と意味のある潜在空間操作を可能にするか?
  • RQ3学習可能な1×1畳み込みは、固定置換やチャネルの逆順と比べて性能と効率の点でどうなるか?
  • RQ4提案されたマルチスケール Glow アーキテクチャは、現実的な学習・サンプリング時間で大規模画像(例: 256×256)に拡張可能か?
  • RQ5Glow潜在空間から得られる定性的な利点(サンプリング品質、補間、属性操作)は何か?

主な発見

  • GlowはRealNVPと比較して、CIFAR-10、ImageNet 32×32/64×64、LSUNデータセットでビット/次元の顕著な改善を達成する。
  • 可逆の1×1畳み込みは収束を速め、パラメータ数がわずかに増える(約0.2%増)ものの、学習時間は同等で、対数尤度の顕著な改善をもたらす。
  • CelebA-HQ 256×256 では、Glowは高品質で非自己回帰的なサンプルを合成でき、潜在空間の補間と属性操作をサポートする。
  • 適切な温度でのサンプリングは、多様で現実的な画像と滑らかな潜在流形を生み出す。
  • 温度と深さはサンプル品質と多様性に影響を与え、256×256 CelebA-HQ 実験では温度0.7付近が最適解に近い。
  • Glowは高解像度合成が効率的で(256×256時、1080 Tiでサンプリング約130 ms)、ベンチマーク全体でも競争力のある尤度を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。