Skip to main content
QUICK REVIEW

[论文解读] Tacotron: Towards End-to-End Speech Synthesis

Yuxuan Wang, RJ Skerry-Ryan|arXiv (Cornell University)|Mar 29, 2017
Speech Recognition and Synthesis参考文献 20被引用 151
一句话总结

Tacotron 提出了一种端到端的序列到序列 TTS 模型,它从 <text, audio> 对学习,从字符生成声谱图,与现有的生产参数化系统相比具有更高的自然度,同时实现更快的基于帧的推断。

ABSTRACT

A text-to-speech synthesis system typically consists of multiple stages, such as a text analysis frontend, an acoustic model and an audio synthesis module. Building these components often requires extensive domain expertise and may contain brittle design choices. In this paper, we present Tacotron, an end-to-end generative text-to-speech model that synthesizes speech directly from characters. Given pairs, the model can be trained completely from scratch with random initialization. We present several key techniques to make the sequence-to-sequence framework perform well for this challenging task. Tacotron achieves a 3.82 subjective 5-scale mean opinion score on US English, outperforming a production parametric system in terms of naturalness. In addition, since Tacotron generates speech at the frame level, it's substantially faster than sample-level autoregressive methods.

研究动机与目标

  • 通过使用一个在 <text, audio> 对上训练的端到端模型,消除文本和特征处理中的人工设计。
  • 通过端到端训练实现对说话者或语言等属性的条件化。
  • 改进对更长且更丰富的语音单位的对齐与语调处理。
  • 通过生成基于帧的声谱图,而不是逐样本输出,提升合成速度。

提出的方法

  • 使用带注意力的序列到序列架构将字符序列映射到梅尔尺度声谱帧。
  • 引入 CBHG(Convolution Bank + Highway Network + Bidirectional GRU)模块以稳健地编码文本序列。
  • 在解码器步骤中预测多个帧(降维因子 r)以加速收敛与训练。
  • 应用后处理 CBHG 将 seq2seq 目标转换为更高质量的声谱,用 Griffin-Lim 进行波形合成。
  • 使用 seq2seq 梅尔声谱和后处理线性声谱目标的 L1 损失进行训练。
  • 在预测声谱后使用 Griffin-Lim 合成音频;在 Griffin-Lim 之前对幅度进行 1.2 次方缩放以降低伪影。

实验结果

研究问题

  • RQ1一个在原始文本上训练的端到端模型能否在没有人工设计的语言学特征或 HMM 对齐器的情况下达到自然的语音?
  • RQ2基于 CBHG 的编码器是否可以改善字符级输入在 TTS 的对齐与泛化?
  • RQ3在解码器步骤中预测多个帧(降维因子)是否能加速收敛并改善对齐稳定性?
  • RQ4使用 Griffin-Lim 进行波形重构时,后处理网络对合成语音质量的影响是什么?

主要发现

  • Tacotron 在美式英语上达到 3.82 的平均意见分数(MOS),在自然度方面优于生产参数化系统。
  • 该模型以帧为单位实现运行,明显快于按样本的自回归方法。
  • CBHG 编码器相较于普通 GRU 编码器减少了发音错误和过拟合。
  • 后处理网络提升了和声细节和高频共振峰,降低了合成伪影。
  • 使用幅度提升到 1.2 的 Griffin-Lim 波形合成在感知质量上有所提升。
  • 在内部数据(约 24.6 小时)、单一女性说话人条件下,Tacotron 展示出强自然性和鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。