QUICK REVIEW

[論文レビュー] Composing graphical models with neural networks for structured representations and fast inference

Matthew Johnson, David Duvenaud|arXiv (Cornell University)|Mar 20, 2016

Neural Networks and Applications参考文献 18被引用数 232

ひとこと要約

本稿は、潜在グラフィカルモデルとニューラルネット観測モデルを組み合わせる Structured Variational Autoencoders (SVAEs) を紹介し、認識ネットワークによる高速推論と効率的なメッセージパッシングを可能にします。

ABSTRACT

We propose a general modeling and inference framework that composes probabilistic graphical models with deep learning methods and combines their respective strengths. Our model family augments graphical structure in latent variables with neural network observation models. For inference, we extend variational autoencoders to use graphical model approximating distributions with recognition networks that output conjugate potentials. All components of these models are learned simultaneously with a single objective, giving a scalable algorithm that leverages stochastic variational inference, natural gradients, graphical model message passing, and the reparameterization trick. We illustrate this framework with several example models and an application to mouse behavioral phenotyping.

研究の動機と目的

確率的グラフィカルモデルと深層学習を結合して、構造化された潜在表現と非線形観測モデルを学習する。
認識ネットワークを用いて共役なグラフィカルモデルポテンシャルを生成し、迅速で扱いやすい推論を可能にする。
エンドツーエンドの訓練のために、確率的変分推論、メッセージパッシング、リパラメータ化を統合した SVAE アルゴリズムを開発する。
深度ビデオからマウスの行動をセグメント化・分類するなどのタスクでフレームワークを実証する。
ディスクリート/連続潜在構造とニューロ観測モデルを結ぶ、拡張性が高く一般的なモデリングテンプレート（例：warped mixtures、latent LDS、latent SLDS）を提供する。

提案手法

潜在的グラフィカルモデルとニューラルネットワーク観測尤度を結合した一般的なモデリングフレームワークを提案する。
認識ネットワークを用いて共役指数族ポテンシャルを出力し、それをグラフィカルモデル推論と組み合わせられるようにする。
SVAE目的関数を開発する。これは平均場変分目的関数の下限であり、確率的勾配で最適化される。
適用可能な場合には自然勾配を含む、効率的な勾配計算のために共役指数族構造を活用する。
例を提供する：柔軟なクラスタリングのための warped mixtures、ビデオ用の latent linear dynamical systems、行動の解析のための latent switching linear dynamical systems。
確率的変分推論、グラフィカルモデルのメッセージパッシング、およびリパラメータ化のコツを統合した一体化トレーニングパイプライン。

実験結果

リサーチクエスチョン

RQ1構造化された潜在表現と柔軟な非線形観測モデルを共同でどのように学習できるか？
RQ2認識ネットワークは共役なグラフィカルモデルポテンシャルを生み出して、非共役な観測モデルでも効率的な推論を可能にできるか？
RQ3グラフィカルモデルと深層ニューラルネットを組み合わせたモデルのエンドツーエンド訓練をどのように行えるか？
RQ4ニューラル観測モデルを備えた構造化潜在モデル（LDS、SLDS）は、動画からの行動のセグメンテーションなどのタスクを改善するか？
RQ5SVAEが完全に非共役なアプローチや完全に共役なアプローチと比較して、推論速度や最適化の安定性といった計算上の利点は何か？

主な発見

Structured variational autoencoders は、グラフィカルモデルの構造とニューロ観測モデルを結びつけるモデルのエンドツーエンド訓練を可能にする。
認識ネットワークは共役ポテンシャルを出力し、CRF様の変分因子内での高速メッセージパッシング推論を可能にする。
SVAEは変分目的関数の下限を提供し、潜在パラメータに対して自然勾配を用いた実行可能な最適化を可能にする。
合成データとマウスの深度ビデオを用いた実験は、有効な潜在状態表現と長期的な正確な予測を示す。
LDS-SVAE および SLDS-SVAE の変種は、学習速度の向上とビデオデータから意味のある離散的な行動状態の出現を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。