Skip to main content
QUICK REVIEW

[論文レビュー] A Deep and Tractable Density Estimator

Benigno Uría, Iain Murray|arXiv (Cornell University)|Oct 7, 2013
Gaussian Processes and Bayesian Inference参考文献 19被引用数 104
ひとこと要約

この論文は、すべての変数順序のNADEモデルを同時に学習できる、順序に依存しない訓練手順を導入する。すべての順序でパラメータを共有することで、正確な周辺化と条件付き推論が可能となり、深層構造でも線形の計算コスト増加で実現可能であり、実行時におけるアンサンブル作成も可能となる。これにより、密度推定性能が最先端水準に達し、6層のモデルでBSDS300画像パッチデータセットにおいて155.2の対数尤度を達成した。

ABSTRACT

The Neural Autoregressive Distribution Estimator (NADE) and its real-valued version RNADE are competitive density models of multidimensional data across a variety of domains. These models use a fixed, arbitrary ordering of the data dimensions. One can easily condition on variables at the beginning of the ordering, and marginalize out variables at the end of the ordering, however other inference tasks require approximate inference. In this work we introduce an efficient procedure to simultaneously train a NADE model for each possible ordering of the variables, by sharing parameters across all these models. We can thus use the most convenient model for each inference task at hand, and ensembles of such models with different orderings are immediately available. Moreover, unlike the original NADE, our training procedure scales to deep models. Empirically, ensembles of Deep NADE models obtain state of the art density estimation performance.

研究の動機と目的

  • NADEにおける固定された変数順序の制限を解消し、任意の変数サブセットに対する効率的な周辺化と条件付き推論を可能にすること。
  • 浅いモデルと比較して線形の計算コスト増加でみられる深層NADEモデルの学習を可能にすること。
  • 追加の学習コストなしに、異なる順序で学習されたNADEモデルのアンサンブルを実行時において構築できること。
  • 特に高次元データ(画像パッチなど)に対して、実世界のデータセットにおける密度推定性能の向上を図ること。

提案手法

  • すべての順列にわたるパラメータの共有を通じて、すべての可能な変数順序のNADEを暗黙的に表現する1つの共有モデルを学習する。
  • 確率的勾配降下法を用いて、すべての順序における負の対数尤度の平均を最適化することで、階乗個のモデルを同時に学習可能にする。
  • 再帰的な隠れ層活性化の計算(式5)を用いることで、深層構造でも効率を維持する。
  • 異なる順序間での一貫性の欠如を活用し、実行時におけるアンサンブル生成を可能にし、汎化性能と尤度推定を向上させる。
  • 連続分布のモデル化を可能にするために、RNADE拡張において混合密度ネットワーク(MDNs)を適用する。
  • 過学習を回避するため、エポックの早期停止と学習率スケジューリングを用いる。これにより、深層モデルや多数の層を含む場合でも安定した学習が可能となる。

実験結果

リサーチクエスチョン

  • RQ1固定された順序を固定せず、任意の変数サブセットに対して正確な周辺化と条件付き推論を可能にする1つのモデルを学習可能か?
  • RQ2NADEを深層構造にスケーリング可能か?その際、線形を超える計算コストの増加が生じないか?
  • RQ3異なる順序で学習されたNADEモデルのアンサンブルを、明示的なアンサンブル学習なしに、密度推定性能の向上に寄与可能か?
  • RQ4順序に依存しない訓練手順により、BSDS300画像パッチのようなベンチマークデータセットで最先端の性能を達成できるか?

主な発見

  • BSDS300の8×8自然画像パッチにおいて、提案手法は157.0のテストセット対数尤度を達成し、混合ガウス分布や固定順序RNADEを含むすべての先行手法を上回った。
  • 順序に依存しない手順で学習した6層のRNADEは155.2の対数尤度を達成し、固定順序ベースライン(152.1)およびすべての浅いモデルを上回った。
  • 32の順序のアンサンブル(EoRNADE 6hl 32 ord.)は157.0の対数尤度を達成し、最小限の推論コストで性能向上が実現された。
  • 本手法は深さに比例して線形にスケーリングされる:6層モデルの学習コストは、浅いモデルと比較して線形に増加した。
  • 6層の隠れ層を含むモデルでも過学習は観察されず、検証コストも一定に保たれた。これは、さらに深いモデルによる性能向上の可能性を示唆している。
  • MCMCベースや変分推論法とは異なり、正確なサンプリングと周辺化が可能であり、かつ尤度計算が tractable なままである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。