Skip to main content
QUICK REVIEW

[论文解读] Glow-TTS: A Generative Flow for Text-to-Speech via Monotonic Alignment Search

Jaehyeon Kim, Sungwon Kim|arXiv (Cornell University)|May 22, 2020
Speech Recognition and Synthesis参考文献 33被引用 204
一句话总结

Glow-TTS 是一个基于流的并行 TTS 模型,在内部学习单调的文本-语音对齐,无需外部对齐器,从而实现快速、鲁棒且可控的语音合成。它实现快速的并行合成,并在质量上与自回归的 Tacotron 2 相当,同时增加对多说话人设置和可控语调的支持。

ABSTRACT

Recently, text-to-speech (TTS) models such as FastSpeech and ParaNet have been proposed to generate mel-spectrograms from text in parallel. Despite the advantage, the parallel TTS models cannot be trained without guidance from autoregressive TTS models as their external aligners. In this work, we propose Glow-TTS, a flow-based generative model for parallel TTS that does not require any external aligner. By combining the properties of flows and dynamic programming, the proposed model searches for the most probable monotonic alignment between text and the latent representation of speech on its own. We demonstrate that enforcing hard monotonic alignments enables robust TTS, which generalizes to long utterances, and employing generative flows enables fast, diverse, and controllable speech synthesis. Glow-TTS obtains an order-of-magnitude speed-up over the autoregressive model, Tacotron 2, at synthesis with comparable speech quality. We further show that our model can be easily extended to a multi-speaker setting.

研究动机与目标

  • 开发一个并行 TTS 模型,其训练不需要外部对齐器。
  • 通过基于流的解码器实现具有单调对齐的快速、鲁棒的 Mel-Spectrogram 合成。
  • 在训练中结合动态规划以找到最可能的单调对齐。
  • 展示对韵律(音高)和语速的可控性,并扩展到多说话人 TTS。

提出的方法

  • 通过基于流的解码器建模 Mel 频谱的条件分布,将先验 z|c 转换为 x。
  • 使用对齐函数 A 将潜在变量 z 的索引映射到文本编码的统计量 mu、sigma,强制单调且满射的对齐。
  • 通过最大似然训练,在找到最可能的单调对齐 A*(通过 MAS)和更新模型参数之间交替进行(Viterbi 风格训练)。
  • 用文本编码器预测先验统计量,并训练一个时长预测器以匹配对齐得到的时长。
  • 通过从文本预测先验统计量、从先验中采样 z,并在并行中通过基于流的解码器进行变换来推断。

实验结果

研究问题

  • RQ1基于流的 TTS 模型是否能够在没有外部对齐器的情况下学习单调的文本到语音对齐?
  • RQ2强制硬性单调对齐是否能够提高鲁棒性并实现并行合成?
  • RQ3模型是否能够支持多说话人 TTS,并提供对韵律和语速的可控性?

主要发现

  • Glow-TTS 在他们的设置中实现了比 Tacotron 2 快 15.7 倍的 Mel-Spectrogram 合成速度。
  • MOS 结果显示 Glow-TTS 的变体在感知质量方面接近 Tacotron 2,单说话人最佳 MOS 约为 4.0–4.5,取决于配置(例如 Mel+WaveGlow 基线为 4.01–4.19,GT 在更高质量设置下达到 4.54)。
  • 该模型在处理长语句时仍然鲁棒,对长输入的字符错误率低于 Tacotron 2。
  • 该框架通过潜在噪声 ε 实现多样语音,通过温度 T 实现可控音高,通过时长缩放实现可调语速。
  • Glow-TTS 可以扩展到多说话人 TTS,性能与单说话人基线相当,并通过潜在语音分离实现语音转换。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。