[论文解读] Z-Forcing: Training Stochastic Recurrent Networks
本文提出Z-Forcing,一种基于随机循环生成模型的方法,通过引入一个辅助损失函数,强制潜在变量重建反向RNN状态,从而改善潜在变量的训练。通过统一反向推理、条件先验和潜在变量条件动力学,该模型在语音基准测试(TIMIT、Blizzard)上达到最先进性能,并在语言建模中学习到可解释的表征,优于KL退火方法。
Many efforts have been devoted to training generative latent variable models with autoregressive decoders, such as recurrent neural networks (RNN). Stochastic recurrent models have been successful in capturing the variability observed in natural sequential data such as speech. We unify successful ideas from recently proposed architectures into a stochastic recurrent model: each step in the sequence is associated with a latent variable that is used to condition the recurrent dynamics for future steps. Training is performed with amortized variational inference where the approximate posterior is augmented with a RNN that runs backward through the sequence. In addition to maximizing the variational lower bound, we ease training of the latent variables by adding an auxiliary cost which forces them to reconstruct the state of the backward recurrent network. This provides the latent variables with a task-independent objective that enhances the performance of the overall model. We found this strategy to perform better than alternative approaches such as KL annealing. Although being conceptually simple, our model achieves state-of-the-art results on standard speech benchmarks such as TIMIT and Blizzard and competitive performance on sequential MNIST. Finally, we apply our model to language modeling on the IMDB dataset where the auxiliary cost helps in learning interpretable latent variables. Source Code: \url{https://github.com/anirudh9119/zforcing_nips17}
研究动机与目标
- 通过为潜在变量引入一种与任务无关的辅助目标,改善随机循环模型在序列数据上的训练稳定性和性能。
- 将成功的架构组件——反向后验、条件先验和潜在变量条件动力学——统一到一个生成模型中。
- 在序列生成中实现更好的潜在因子解耦与可解释性,尤其是在语音和文本等高变异性数据中。
- 通过增强潜在变量的利用效率,解决具有强大自回归解码器的VAE中潜在后验崩溃的问题。
提出的方法
- 模型使用反向RNN计算潜在变量的近似后验分布,从而在推理过程中获取未来上下文信息。
- 潜在变量用于条件化前向循环动力学,有效编码未来序列元素的‘计划’。
- 引入一个辅助损失函数,强制潜在变量重建反向RNN的隐藏状态,提供一种与主生成目标无关的任务无关信号。
- 通过近端变分推断进行训练,最大化变分下界(ELBO),并加入额外的重建损失。
- 条件先验确保潜在变量受到序列上下文的影响,从而提升建模能力。
- 该架构支持通过时间反向传播和潜在变量的随机反向传播实现端到端训练。
实验结果
研究问题
- RQ1一个强制潜在变量重建反向RNN状态的辅助损失,能否改善随机循环模型的训练稳定性和性能?
- RQ2通过反向网络强制潜在变量预测未来上下文,是否能带来更好的序列生成中潜在因子的解耦与可解释性?
- RQ3在语音和文本基准测试中,Z-Forcing与KL退火相比,在模型性能和潜在变量利用效率方面表现如何?
- RQ4所提出的辅助目标能否在不同序列建模任务中泛化,包括语音和语言建模?
主要发现
- Z-Forcing在标准语音基准测试(包括TIMIT和Blizzard)上达到最先进性能,优于先前方法。
- 与KL退火相比,辅助重建损失显著提升了模型性能,尤其在减少后验崩溃和增强潜在变量使用方面。
- 在IMDB语言建模数据集上,辅助损失使潜在表示更具可解释性和解耦性,表现为潜在空间中的线性插值结果。
- 随着KL散度增大,ELBO与IWAE(使用25个样本评估)之间的差距也增大,表明模型从更强的潜在监督中获益。
- 潜在空间中的线性插值显示,潜在变量捕捉了句子长度和语义特征,且在插值点之间生成过渡平滑。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。