QUICK REVIEW

[論文レビュー] Sequential Neural Models with Stochastic Layers

M. Fraccaro, Søren Kaae Sønderby|arXiv (Cornell University)|May 24, 2016

Music and Audio Processing被引用数 158

ひとこと要約

論文は、決定論的RNNと非線形状態空間モデルを組み合わせた確率的リカレントニューラルネットワーク（SRNN）を導入し、構造化変分推論を可能にし、BlizzardとTIMITの音声データセットで最先端の結果を達成し、ポリフォニック音楽でも競争力を示す。

ABSTRACT

How can we efficiently propagate uncertainty in a latent state representation with recurrent neural networks? This paper introduces stochastic recurrent neural networks which glue a deterministic recurrent neural network and a state space model together to form a stochastic and sequential neural generative model. The clear separation of deterministic and stochastic layers allows a structured variational inference network to track the factorization of the model's posterior distribution. By retaining both the nonlinear recursive structure of a recurrent neural network and averaging over the uncertainty in a latent path, like a state space model, we improve the state of the art results on the Blizzard and TIMIT speech modeling data sets by a large margin, while achieving comparable performances to competing methods on polyphonic music modeling.

研究の動機と目的

潜在的な逐次表現における不確実性の効率的な伝搬を動機づける。
決定論的層と確率的層を明確に分離する確率的リカレントアーキテクチャの提案。
モデルの後方分解（ポスターリオ分解）を反映した構造化変分推論ネットワークを開発。
音声モデリングで最先端の性能を、音楽モデリングで競争力のある結果を示す。

提案手法

ゲート付きRNN（GRUベース）の上に非線形状態空間モデルを積み重ねて、確率的リカレントニューラルネットワーク（SRNN）を形成する。
連結生成モデル p_theta(x1:T, z1:T, d1:T) を p(x_t|z_t,d_t) p(z_t|z_{t-1},d_t) p(d_t|d_{t-1},u_t) に因子分解する。
未来情報を用いて z_t を近似するために、後向きRNNを介して後向き情報を活用する構造化推論ネットワーク q_phi(z1:T, d1:T|x1:T, u1:T) を使用する。
勾配ベースの最適化のために ELBO (F(theta, phi)) と再パラメタ化トリックを用いた変分推論を適用する。
予測的事前ダイナミクスを q_phi*(z_{t-1}) からのサンプルを介して組み込み、推論ネットワークを改善する残差ベースのパラメータ化（Res_q）を導入する。
推論ネットワークの平滑化（後向き）とフィルタリングの両方のバリアントを提供する。

実験結果

リサーチクエスチョン

RQ1RNNの上にある確率的潜在層は、ゲート付き非線形性の利点を維持しつつ、逐次データの不確実性を効果的にモデル化できるか？
RQ2非線形状態空間層と構造化された変分後方分布を組み込むことで、音声および音楽データの予測性能が向上するか？
RQ3未来情報を活用し、計算的に扱いやすく効率的な学習を維持するために、推論ネットワークをどのように設計すべきか？
RQ4逐次モデルにおける後方推論のために決定論的成分と確率的成分を分離する実用的利点は何か？

主な発見

SRNNはBlizzardおよびTIMITの音声モデリング課題で最先端または競争力のある性能を達成。
未来情報を統合する構造化変分後方分布（平滑化）が、単なるフィルタリングと比べて ELBO および予測尤度を改善する。
推論ネットワークにおける残差パラメータ化は、ほとんどの場合で性能をさらに向上させる。
SRNNはポリフォニック音楽データセットでも競争力のある結果を達成し、いくつかの同時代手法に匹敵。
決定論的RNNコアと確率的状態空間層を分離することで、推論と訓練を簡素化しつつモデリング能力を維持。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。