Skip to main content
QUICK REVIEW

[論文レビュー] Density Estimation Using Real NVP

Laurent Dinh, Jascha Sohl‐Dickstein|arXiv (Cornell University)|May 27, 2016
Machine Learning and Data Classification参考文献 54被引用数 788
ひとこと要約

この論文は、実数値の非体積保存(Real NVP)変換を提案し、高次元データに対する扱いやすい厳密密度推定、サンプリング、および潜在変数推論を可能にするとともに、強力な画像モデリング性能と意味のある潜在空間を示します。

ABSTRACT

Unsupervised learning of probabilistic models is a central yet challenging problem in machine learning. Specifically, designing models with tractable learning, sampling, inference and evaluation is crucial in solving this task. We extend the space of such models using real-valued non-volume preserving (real NVP) transformations, a set of powerful invertible and learnable transformations, resulting in an unsupervised learning algorithm with exact log-likelihood computation, exact sampling, exact inference of latent variables, and an interpretable latent space. We demonstrate its ability to model natural images on four datasets through sampling, log-likelihood evaluation and latent variable manipulations.

研究の動機と目的

  • 高次元データのための扱いやすい学習・サンプリング・推論を備えた監視なし確率モデリングを動機づける。
  • Real NVPを、変数変換の式を用いて厳密な対数尤度を可能にする柔軟な全て可逆な変換として紹介する。
  • 効率的なヤコビ行列の決定を備えた、可逆で多スケールの結合層アーキテクチャを開発する。
  • 自然画像データセット上での密度推定とサンプル生成を実証する。
  • 潜在表現が解釈可能で、可視化や条件付けに有用であることを示す。

提案手法

  • pX(x)をpZ(f(x))(全単射 f)により定義し、変数変換公式を用いてlog pX(x)を計算する。
  • 入力の一部を他方の条件付きで変換するアフィン結合層を用い、ヤコビ行列を三角形とすることで決定行列を効率的に計算する。
  • 交互マスク(チェッカーボードとチャネルごと)で結合層を積み上げ、空間分解能と深さをトレードオフするためにマルチスケールの絞り込みを適用する。
  • 訓練を安定化させ、勾配伝播を改善するためにバッチ正規化と残差ネットワークを組み込む。
  • 計算コストを制御するため、定期的な間隔で半分の次元を因数分解するマルチスケールアーキテクチャを採用する。
  • isotropic Gaussian prior pZ を用いた最大似然推定で訓練し、z ~ pZ からの効率的かつ並列なサンプリングを活用する。

実験結果

リサーチクエスチョン

  • RQ1高次元データにおいて、 bijective で高度に非線形な変換が厳密かつ扱いやすい対数尤度推定を可能にするか。
  • RQ2単純な逆と tractable なヤコビ行列を持つアフィン結合層は、密度推定とサンプル品質にどのような影響を与えるか。
  • RQ3多スケールのマスク結合アーキテクチャは、自然画像のスケーラブルな訓練と正確な推定を支えるか。
  • RQ4Real NVPによって学習された潜在空間は、他の生成モデルと比べてどの程度意味のある構造を示し、解釈可能か。
  • RQ5Real NVPは標準的な画像データセットに対して、ビット・パー・ディメンションおよびサンプルのシャープさの点で既存モデルと比較してどう機能するか。

主な発見

DatasetPixelRNNReal NVPConv DRAWIAF-VAE
CIFAR-103.003.49< 3.59< 3.28
Imagenet (32×32)3.86 (3.83)4.28 (4.26)< 4.40 (4.35)
Imagenet (64×64)3.63 (3.57)3.98 (3.75)< 4.10 (4.04)
LSUN (bedroom)2.72 (2.70)
LSUN (tower)2.81 (2.78)
LSUN (church outdoor)3.08 (2.94)
CelebA3.02 (2.97)
  • Real NVPは厳密な対数尤度、厳密なサンプリング、および厳密な潜在変数推論を、 tractable なヤコビ行列とともに実現する。
  • アフィン結合層は対角項の積で決定行列を構成する三角形を生み出し、密度計算を効率化する。
  • 絞り込みとマスキングを備えた多スケールアーキテクチャは、訓練安定性を保ちながら画像の密度モデリングをスケーラブルに実現する。
  • CIFAR-10、ImageNet(32×32および64×64)、LSUN、CelebA において、Real NVPは PixelRNN や他のベースラインと比較してビット・パー・ディメンションスコアで競合的な性能を示し、モデル容量の増加とともに性能が向上する。
  • 学習された潜在空間は意味のある構造と滑らかな補間を示し、条件付けおよび半教師あり設定を支える意味的に整合的な表現を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。