Skip to main content
QUICK REVIEW

[論文レビュー] BIVA: A Very Deep Hierarchy of Latent Variables for Generative Modeling

Lars Maaløe, M. Fraccaro|arXiv (Cornell University)|Feb 6, 2019
Generative Adversarial Networks and Image Synthesis参考文献 60被引用数 71
ひとこと要約

BIVAは、双方向推論ネットワークと決定的なトップダウン経路を備えた、非常に深い階層の確率潜在変数を導入し、強い尤度、鮮明な画像生成、異常検知、半教師あり分類を実現します。

ABSTRACT

With the introduction of the variational autoencoder (VAE), probabilistic latent variable models have received renewed attention as powerful generative models. However, their performance in terms of test likelihood and quality of generated samples has been surpassed by autoregressive models without stochastic units. Furthermore, flow-based models have recently been shown to be an attractive alternative that scales well to high-dimensional data. In this paper we close the performance gap by constructing VAE models that can effectively utilize a deep hierarchy of stochastic variables and model complex covariance structures. We introduce the Bidirectional-Inference Variational Autoencoder (BIVA), characterized by a skip-connected generative model and an inference network formed by a bidirectional stochastic inference path. We show that BIVA reaches state-of-the-art test likelihoods, generates sharp and coherent natural images, and uses the hierarchy of latent variables to capture different aspects of the data distribution. We observe that BIVA, in contrast to recent results, can be used for anomaly detection. We attribute this to the hierarchy of latent variables which is able to extract high-level semantic features. Finally, we extend BIVA to semi-supervised classification tasks and show that it performs comparably to state-of-the-art results by generative adversarial networks.

研究の動機と目的

  • 確率的潜在変数モデルと自己回帰/フロー系モデルとの間の性能ギャップを、テスト尤度とサンプル品質の観点で動機づけし是正する。
  • 深い階層の確率的潜在変数、双方向推論経路、および決定的なトップダウン経路を備えた新規なVAE variants—BIVA—を提案する。
  • アブレーション研究を通じてアーキテクチャの利点を示し、自然画像と2値画像、異常検知、および半教師あり分類で評価する。
  • BIVAが潜在階層で学習される高次の意味特徴を用いて異常検知を実行できることを示す。

提案手法

  • 各層の潜在変数をボトムアップ成分とトップダウン成分に分割した深い階層的VAEを導入する (z_i = (z_i_BU, z_i_TD)).
  • 情報流を改善し潜在変数崩壊を軽減するために、スキップ接続を提供する決定的なトップダウン経路を追加する。
  • 生成モデルとパラメータを共有する、下向きの確率的経路と上向きの確率的経路を持つ双方向推論ネットワークを用い、柔軟な後方分布 q_phi(z|x) を形成する。
  • 各レベルで潜在変数を因子分解して下向きの確率的推論を可能にし、補助変数なしで上位層の共分散学習を可能にする。
  • 再parameterizationを用いてELBOを最大化することで訓練し、初期の潜在変数崩壊を緩和するfree-bits戦略を補助とする;異常検知のためには、変分後方から上位層をサンプルし条件付き事前分布から下位層をサンプルする階層的下限 L^{>k} を用いる。
  • モデルの異常検知への適用性と、zとyに対する条件付きxを組み込んだクラス変数yを導入することによる半教師あり拡張を説明する。

実験結果

リサーチクエスチョン

  • RQ1標準ベンチマークで、BIVAは自己回帰・フロー系モデルを超えてテスト対数尤度とサンプル品質を改善するか。
  • RQ2BIVAの潜在変数階層は異常検知に有用な高レベルの意味特徴を捉えられるか。
  • RQ3双方向推論経路と決定的なトップダウン接続は、潜在変数崩壊の回避にどう寄与するか。
  • RQ4BIVAを半教師あり分類へ拡張して競争力のある性能を発揮できるか。
  • RQ5Lレベルの深い階層とBU/TD因子分解が学習表現や下流タスクに与える影響は何か。

主な発見

  • BIVAは複数のベンチマークで最先端または競争力のあるテスト尤度を達成し、非自己回帰潜在変数モデルを上回り、設定によっては自己回帰モデルに近づく。
  • 2値MNISTタスクでは、L1およびL1e3設定で強力な対数尤度を達成し、微調整により以前の潜在変数法と比較してさらなる改善を得る。
  • 自然画像では、L=15(L=20までの変種を含む)を用いたBIVAはCIFAR-10で競争力のあるbits-per-dimensionを提供し、多くのフロー系および非自己回帰モデルを上回るが、いくつかのケースでは自己回帰モデルが優れる。
  • 高レベル潜在変数(L^{>k})を用いた階層ベースの異常検知アプローチは、標準的なELBOベース法より分布内外データの分離性が良く、モデルが高レベルの意味論をエンコードできる能力を示す。
  • クラス変数yを持つ半教師あり拡張は、MNISTで競争力のある分類性能をもたらし、現代のGANベース手法に匹敵する。
  • CelebA上でBIVA prior (N(0, I)) から生成された定性的サンプルは鋭く一貫しており、従来の潜在変数モデルよりも生成品質が向上していることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。