Skip to main content
QUICK REVIEW

[论文解读] Deep Encoder-Decoder Models for Unsupervised Learning of Controllable Speech Synthesis

Gustav Eje Henter, Jaime Lorenzo-Trueba|arXiv (Cornell University)|Jul 30, 2018
Speech Recognition and Synthesis参考文献 79被引用 51
一句话总结

本论文研究使用编码器-解码器和变分自编码器框架的无监督方法来在语音合成中学习可控输出,将现有启发式方法与概率潜变量模型和 VQ-VAE 联系起来。它显示这些无监督方法在情感语音合成上可以等同于或超过有监督方法。

ABSTRACT

Generating versatile and appropriate synthetic speech requires control over the output expression separate from the spoken text. Important non-textual speech variation is seldom annotated, in which case output control must be learned in an unsupervised fashion. In this paper, we perform an in-depth study of methods for unsupervised learning of control in statistical speech synthesis. For example, we show that popular unsupervised training heuristics can be interpreted as variational inference in certain autoencoder models. We additionally connect these models to VQ-VAEs, another, recently-proposed class of deep variational autoencoders, which we show can be derived from a very similar mathematical argument. The implications of these new probabilistic interpretations are discussed. We illustrate the utility of the various approaches with an application to acoustic modelling for emotional speech synthesis, where the unsupervised methods for learning expression control (without access to emotional labels) are found to give results that in many aspects match or surpass the previous best supervised approach.

研究动机与目标

  • 通过学习未标注的变异性来推动可控语音合成,超越仅依赖文本注释。
  • 建立现有无监督控制方法的概率解释。
  • 将常见启发式方法与变分自编码器和 VQ-VAE 联系起来。
  • 在大规模情感语音数据库上评估无监督控制方法,并与有监督基线进行比较。

提出的方法

  • 将控制问题框架为带文本输入的语音合成的潜变量建模。
  • 使用变分推断推导下界,并将训练启发式方法解释为近似最大似然。
  • 展现类似 DCC 的控制与 VQ-VAE 框架之间的等价性/联系。
  • 讨论将先验信息整合到无监督控制方法中。
  • 在情感语音上进行实证评估,以与有监督系统进行比较。

实验结果

研究问题

  • RQ1无监督学习的潜在控制变量能否在没有情感标签的情况下产生可控语音?
  • RQ2现有的无监督控制启发式方法与变分推断和 VQ-VAE 原理之间有何关系?
  • RQ3无监督方法在表达性(情感)语音合成中是否能达到或超过有监督模型?

主要发现

  • 无监督控制方法可以被解释为通过变分界限的近似最大似然估计。
  • 常见的编码器-解码器方法与 VQ-VAE 之间存在理论联系。
  • 可以将先验信息整合到启发式无监督方法中。
  • 在大型情感语音数据库上的实验表明无监督方法的表现与竞争的有监督系统相当甚至更好。
  • 无监督方法在情感相关的声学建模方面取得的结果达到或超越以往最好有监督方法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。