Skip to main content
QUICK REVIEW

[論文レビュー] Deep Latent Dirichlet Allocation with Topic-Layer-Adaptive Stochastic Gradient Riemannian MCMC

Yulai Cong, Bo Chen|arXiv (Cornell University)|Jun 6, 2017
Generative Adversarial Networks and Image Synthesis参考文献 31被引用数 37
ひとこと要約

本稿では、深層離散的潜在変数モデル、特にLDAの多層一般化である深層潜在ディリクレ割り当て(DLDA)におけるスケーラブルで統合的な推論を実現するため、トピック層適応型確率的勾配リーマンMCMC(TLASGR MCMC)を提案する。データ拡張と周辺化を用いて解析的フィッシャー情報行列を導出することで、層およびトピックごとの適応的学習率を実現し、非バッチ推論を効率的に行うことで、大規模データセット上での最先端の性能を達成した。

ABSTRACT

It is challenging to develop stochastic gradient based scalable inference for deep discrete latent variable models (LVMs), due to the difficulties in not only computing the gradients, but also adapting the step sizes to different latent factors and hidden layers. For the Poisson gamma belief network (PGBN), a recently proposed deep discrete LVM, we derive an alternative representation that is referred to as deep latent Dirichlet allocation (DLDA). Exploiting data augmentation and marginalization techniques, we derive a block-diagonal Fisher information matrix and its inverse for the simplex-constrained global model parameters of DLDA. Exploiting that Fisher information matrix with stochastic gradient MCMC, we present topic-layer-adaptive stochastic gradient Riemannian (TLASGR) MCMC that jointly learns simplex-constrained global parameters across all layers and topics, with topic and layer specific learning rates. State-of-the-art results are demonstrated on big data sets.

研究の動機と目的

  • 確率的勾配MCMC(SG-MCMC)を用いた深層離散的潜在変数モデル(LVM)におけるスケーラブルで統合的な推論の課題に対処すること。
  • 深層LVMにおける異なる層やトピック間で学習率を適応させる困難を克服すること。
  • 現在バッチギブスサンプリングに限定されているポissonガンマ信念ネットワーク(PGBN)に対して、非バッチかつミニバッチベースの推論を可能にすること。
  • 従来、取り扱いが困難とされてきた深層LVMにおける実用的で解析的なフィッシャー情報行列(FIM)の形を構築すること。
  • 単体の簡易尤度仮定を避けるために、SG-MCMCに新しい低減平均単体パラメータ化を統合し、単体制約付きのグローバルパラメータを扱えるようにすること。

提案手法

  • データ拡張と周辺化技術を用いて、PGBNの代替表現である深層潜在ディリクレ割り当て(DLDA)を定式化する。
  • DLDAにおける単体制約付きグローバルパラメータのためのブロック対角型フィッシャー情報行列(FIM)を計算し、前処理のための効率的逆行列計算を可能にする。
  • 解析的FIMを確率的勾配リーマンMCMCフレームワーク内に統合し、トピック層別に適応するステップサイズを導出する。
  • Congら(2017)の高速サンプリング手順を活用し、単体パラメータ化に偽尤度仮定を用いずに、効率的な推論を実現する。
  • TLASGR MCMCアルゴリズムを用いて、全層および全トピックにわたるグローバルパラメータを、層およびトピックごとの学習率で同時に学習する。
  • 逆FIMで前処理されたミニバッチ勾配を用いることで、2次曲率情報を活用し、収束性と安定性を向上させる。

実験結果

リサーチクエスチョン

  • RQ1PGBNのような深層離散的潜在変数モデルに対して、解析的かつ実用的なフィッシャー情報行列(FIM)を導出できるか?
  • RQ2深層LVMにおける複数の層とトピックにわたる統合的学習を、確率的勾配MCMCが効果的に適応できるか?
  • RQ3リーマン幾何学とFIMを用いて、手動のチューニングなしにトピックおよび層別に学習率を自動で適応できるか?
  • RQ4偽尤度仮定を用いずに、SG-MCMCに単体制約付きグローバルパラメータのための非偽尤度単体パラメータ化を効果的に統合できるか?
  • RQ5提案されたTLASGR MCMC手法は、既存の推論手法と比較して大規模データセット上での最先端の性能を達成できるか?

主な発見

  • データ拡張と周辺化を用いて、深層LDAモデル(DLDA)のフィッシャー情報行列(FIM)を解析的に導出でき、実用的な2次推論を可能にした。
  • DLDAのFIMはブロック対角構造を示し、確率的勾配MCMCにおける前処理のための効率的逆行列計算を可能にした。
  • TLASGR MCMCアルゴリズムは、FIMのリーマン幾何学的性質を活用し、トピック層別に適応する学習率を効果的に実装した。
  • 本手法は大規模データセット上での最先端の性能を達成し、スケーラビリティと優れた推論品質を示した。
  • 低減平均単体パラメータ化が、偽尤度仮定を用いずにSG-MCMCに効果的に統合され、単体制約付きパラメータの効率的で整合性のある推論を可能にした。
  • 提案手法により、PGBNにおける非バッチかつミニバッチ学習が実現され、従来のバッチギブスサンプラーのスケーラビリティの制限を克服した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。