Skip to main content
QUICK REVIEW

[论文解读] Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions

Jonathan Shen, Ruoming Pang|arXiv (Cornell University)|Dec 16, 2017
Speech Recognition and Synthesis参考文献 28被引用 183
一句话总结

Tacotron 2 将 Tacotron 风格的梅尔谱预测器与修改后的 WaveNet 语音器结合起来,直接从文本合成高质量语音,达到接近自然语音的 MOS。系统使用梅尔谱作为中间表示,并展示消融实验和效率提升。

ABSTRACT

This paper describes Tacotron 2, a neural network architecture for speech synthesis directly from text. The system is composed of a recurrent sequence-to-sequence feature prediction network that maps character embeddings to mel-scale spectrograms, followed by a modified WaveNet model acting as a vocoder to synthesize timedomain waveforms from those spectrograms. Our model achieves a mean opinion score (MOS) of $4.53$ comparable to a MOS of $4.58$ for professionally recorded speech. To validate our design choices, we present ablation studies of key components of our system and evaluate the impact of using mel spectrograms as the input to WaveNet instead of linguistic, duration, and $F_0$ features. We further demonstrate that using a compact acoustic intermediate representation enables significant simplification of the WaveNet architecture.

研究动机与目标

  • 演示一个完全神经的 TTS 流水线,在没有手工特征的情况下将文本映射到语音。
  • 证明对梅尔谱进行条件化的 WaveNet 可以产生高质量的音频。
  • 评估梅尔谱条件化对模型复杂度与音频质量的影响,以及与语言/原始特征和传统语音器的对比。
  • 评估消融以理解组件贡献和模型效率。

提出的方法

  • 一个 seq2seq 特征预测器通过注意力将字符嵌入映射到梅尔谱帧。
  • 一个修改后的 WaveNet 语音器在预测的梅尔谱条件下生成时域音频。
  • 训练涉及对梅尔谱预测器进行教师 forcing,并单独在预测特征上训练 WaveNet。
  • 一个停止令牌机制动态终止波形生成。
  • 一个后网在输出上添加残差以改进谱重建。

实验结果

研究问题

  • RQ1在对梅尔谱预测进行条件化的 WaveNet 是否比对语言特征或 Griffin-Lim 基线的语音质量更高?
  • RQ2将梅尔谱作为中间表示对模型复杂性和音频质量的影响如何?
  • RQ3消融(线性 vs 梅尔谱、后网必要性、WaveNet 深度)如何影响 MOS 与感知自然度?
  • RQ4端到端的神经 TTS 是否能够在领域内外文本上实现接近地面真值的 MOS?
  • RQ5Tacotron 2 会显现出哪些发音和语调错误模式,它们与基线相比如何?

主要发现

系统MOS
参数化3.492\pm 0.096
Tacotron(Griffin-Lim)4.001\pm 0.087
拼接式4.166\pm 0.091
WaveNet(语言特征)4.341\pm 0.051
真实音频4.582\pm 0.053
Tacotron 2(本文)4.526\pm 0.066
  • 在梅尔条件下,Tacotron 2 的 MOS 为 4.526,接近地面真值 MOS 4.582。
  • 地面真值音频的分数为 4.582,95% 置信区间;Tacotron 2 的值为 4.526(CI 0.066),与之接近。
  • 在梅尔谱条件下的 WaveNet 显著优于在语言特征和 Griffin-Lim 基线上的 WaveNet。
  • 使用梅尔谱可获得紧凑的条件输入,并实现更浅的 WaveNet(例如 12 层)而不损失质量。
  • 后网有助于提高 MOS(有后网时为 4.526, 无后网时为 4.429)。
  • 消融研究表明训练与推理特征对齐很重要(在 WaveNet 在真实特征上训练、但用预测特征解码时表现最好)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。