Skip to main content
QUICK REVIEW

[论文解读] Latent Normalizing Flows for Discrete Sequences

Zachary M. Ziegler, Alexander M. Rush|arXiv (Cornell University)|Jan 29, 2019
Music and Audio Processing被引用 46
一句话总结

本论文提出一个基于VAE的框架,将潜在空间正则化流与一个离散、无输入的发射模型相结合来建模离散序列,从而实现多模态潜在动态和更快的非自回归生成。

ABSTRACT

Normalizing flows are a powerful class of generative models for continuous random variables, showing both strong model flexibility and the potential for non-autoregressive generation. These benefits are also desired when modeling discrete random variables such as text, but directly applying normalizing flows to discrete sequences poses significant additional challenges. We propose a VAE-based generative model which jointly learns a normalizing flow-based distribution in the latent space and a stochastic mapping to an observed discrete space. In this setting, we find that it is crucial for the flow-based distribution to be highly multimodal. To capture this property, we propose several normalizing flow architectures to maximize model flexibility. Experiments consider common discrete sequence tasks of character-level language modeling and polyphonic music generation. Our results indicate that an autoregressive flow-based model can match the performance of a comparable autoregressive baseline, and a non-autoregressive flow-based model can improve generation speed with a penalty to performance.

研究动机与目标

  • 动机:使用灵活的、多模态的潜在流来建模离散序列的动态。
  • 开发一个潜在流VAE,使对连续潜在变量的先验捕捉离散序列的结构。
  • 提出并比较三种流架构,在最大化多模态性的同时实现不同的采样/密度评估权衡。
  • 证明时序自回归流变体可以追赶自回归基线,而非自回归变体在生成速度方面提供加速。
  • 提供关于字符级语言建模和多声部音乐建模的实证证据。

提出的方法

  • 使用VAE框架,其中由正则化流先验p(z1:T)生成的连续潜在序列z1:T。
  • 用无输入的发射机制对p(x1:T|z1:T)进行建模,使流成为主要的生成动力。
  • 探索三种流架构:时间方向的AF配合隐藏层的AF (AF/AF),时间方向的AF配合隐藏层的SCF (AF/SCF),时间方向的IAF配合隐藏层的SCF (IAF/SCF)。
  • 通过非线性平方(NLSq)变换扩展流以增加多模态性。
  • 通过带对角高斯编码器q(z1:T|x1:T)的摊销变分推断进行训练,并优化ELBO。
  • 使用PTB上的字符级语言建模以及跨多个数据集的polyphonic音乐建模进行评估,并与自回归基线进行比较。

实验结果

研究问题

  • RQ1潜在空间正则化流是否能够在不依赖自回归解码器的情况下建模离散序列的多模态动态?
  • RQ2哪些流架构能够最好地捕捉将连续潜在表示映射到离散序列所需的多模态性,同时实现高效的(非自回归)生成?
  • RQ3潜在流模型在字符级语言建模与多声部音乐建模中的性能与自回归基线相比如何?

主要发现

  • 自回归流模型(AF/AF)在PTB字符级语言建模上几乎达到LSTM基线。
  • AF/SCF和IAF/SCF表现具有竞争力或稍慢,非自回归变体以速度换取一定的准确性。
  • KL项在所有模型中主导ELBO,表明对潜在空间在预测离散符号方面有相当大的依赖。
  • 非线性平方(NLSq)流提高了多模态性,在若干消融设置中相比纯仿射流提升了建模能力。
  • 在多声部音乐任务中,AF/AF通常优于若干基线,接近Nottingham数据集的RNN-NADE,而AF/SCF在性能上通常也接近。
  • 非自回归生成(如IAF/SCF)在句子级生成上相对于自回归基线实现了加速,但存在一定的准确性权衡。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。