QUICK REVIEW

[论文解读] Sequential Neural Models with Stochastic Layers

M. Fraccaro, Søren Kaae Sønderby|arXiv (Cornell University)|May 24, 2016

Music and Audio Processing被引用 158

一句话总结

本文提出随机递归神经网络（SRNNs），将确定性RNN与非线性状态空间模型相结合，支持结构化变分推断，在Blizzard和TIMIT语音数据集上取得最先进的结果，同时在多音色音乐方面表现竞争力。

ABSTRACT

How can we efficiently propagate uncertainty in a latent state representation with recurrent neural networks? This paper introduces stochastic recurrent neural networks which glue a deterministic recurrent neural network and a state space model together to form a stochastic and sequential neural generative model. The clear separation of deterministic and stochastic layers allows a structured variational inference network to track the factorization of the model's posterior distribution. By retaining both the nonlinear recursive structure of a recurrent neural network and averaging over the uncertainty in a latent path, like a state space model, we improve the state of the art results on the Blizzard and TIMIT speech modeling data sets by a large margin, while achieving comparable performances to competing methods on polyphonic music modeling.

研究动机与目标

激励在潜在序列表示中高效传播不确定性。
提出一种随机递归架构，清晰地将确定性层与随机层分离。
开发一个结构化的变分推断网络，镜像模型的后验因式分解。
在语音建模上展示最先进的性能，在音乐建模上具有竞争力。

提出的方法

在门控RNN（基于GRU）之上堆叠一个非线性状态空间模型，形成随机递归神经网络（SRNN）。
将联合生成模型 p_theta(x1:T, z1:T, d1:T) 因式分解为 p(x_t|z_t,d_t) p(z_t|z_{t-1},d_t) p(d_t|d_{t-1},u_t)。
使用结构化推断网络 q_phi(z1:T, d1:T|x1:T, u1:T)，通过后向RNN利用后向信息来近似给定未来观测和状态的 z_t。
使用带有 ELBO 的变分推断（F(theta, phi)）和重参数化技巧进行基于梯度的优化。
引入基于残差的参数化（Res_q），通过从 q_phi*(z_{t-1}) 的样本来整合预测先验动态，从而改进推断网络。
为推断网络提供平滑（后向）和滤波变体。

实验结果

研究问题

RQ1在RNN之上添加的随机潜在层是否能在保留门控非线性好处的同时有效建模序列数据的不确定性？
RQ2结合非线性状态空间层和结构化变分后验是否能提升语音和音乐数据的预测性能？
RQ3应如何设计推断网络以利用未来信息并保持可处理、有效的训练？
RQ4将确定性和随机成分分离对序列模型的后验推理有哪些实际好处？

主要发现

SRNN在Blizzard和TIMIT语音建模任务上实现了最先进或具有竞争力的表现。
集成未来信息（平滑）的结构化变分后验相比仅使用滤波，提升了ELBO和预测似然。
推断网络中的残差参数化在大多数情况下进一步提升了性能。
SRNN在多声部音乐数据集上获得有竞争力的结果，可与若干当代方法相当。
将确定性的RNN核心与随机状态空间层分离简化了推断和训练，同时保留建模能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。