Skip to main content
QUICK REVIEW

[论文解读] Deep Voice 3: Scaling Text-to-Speech with Convolutional Sequence Learning

Wei Ping, Kainan Peng|arXiv (Cornell University)|Oct 20, 2017
Speech Recognition and Synthesis被引用 264
一句话总结

Deep Voice 3 是一个完全卷积、基于注意力的 TTS 系统,训练速度更快,能够扩展到大型多说话人数据集,并支持多种声码器,同时降低注意力错误以实现生产就绪的吞吐量。

ABSTRACT

We present Deep Voice 3, a fully-convolutional attention-based neural text-to-speech (TTS) system. Deep Voice 3 matches state-of-the-art neural speech synthesis systems in naturalness while training ten times faster. We scale Deep Voice 3 to data set sizes unprecedented for TTS, training on more than eight hundred hours of audio from over two thousand speakers. In addition, we identify common error modes of attention-based speech synthesis networks, demonstrate how to mitigate them, and compare several different waveform synthesis methods. We also describe how to scale inference to ten million queries per day on one single-GPU server.

研究动机与目标

  • 开发一个完全卷卷积的序列到序列 TTS 模型,能够实现快速训练和可扩展的多说话人合成。
  • 缓解神经 TTS 中常见的注意力失败模式,以提升保真度和可靠性。
  • 评估不同波形合成方法对自然度和部署效率的影响。
  • 在单一 GPU 服务器上展示适用于高流量部署的生产就绪推理吞吐量。

提出的方法

  • 提出一个完全卷积的编码器–解码器–转换器架构,用于文本到声谱图转换和声码器参数预测。
  • 使用带位置编码的多跳卷积注意力机制以促进单调注意力。
  • 融合字符和音素的联合表示以改善发音并减少注意力错误。
  • 使用多任务损失进行训练,结合 mel-spectrogram 预测(解码器)和 vocoder 参数预测(转换器)。
  • 使用 Griffin-Lim、WORLD 和 WaveNet 声码器,在单说话人和多说话人数据集上进行评估。

实验结果

研究问题

  • RQ1一个完全卷积的基于注意力的 TTS 模型是否能在显著加速训练的同时达到最先进的自然度?
  • RQ2模型在大规模多说话人数据集(如 LibriSpeech、VCTK)及多样化口音上的扩展性如何?
  • RQ3在生产就绪的 TTS 中,有效缓解注意力错误(重复、发音错误、跳过)的策略有哪些?
  • RQ4不同的波形合成方法对自然度和部署吞吐量有何影响?

主要发现

  • 与可比的循环网络架构相比,训练速度快一个数量级(例如,在一块 GPU 上每次迭代 0.06s vs Tacotron 的 0.59s)。
  • 模型扩展到 LibriSpeech(820 小时,2484 个说话人)和 VCTK(44 小时,108 个说话人),自然度具有竞争力。
  • 通过字符–音素联合表示和推理阶段的单调注意力,注意力错误在很大程度上得到减少;若干配置显示重复、发音错误/跳过显著减少。
  • MOS 在单说话人数据的表现随声码器而异:Griffin-Lim 3.62,WORLD 3.63,WaveNet 3.78(越高越好);Tacotron(WaveNet)3.78;Deep Voice 2(WaveNet)2.74。
  • 多说话人 MOS:Griffin-Lim 3.01(VCTK),WORLD 3.44(VCTK),Griffin-Lim 2.37(LibriSpeech),WORLD 2.89(LibriSpeech);真实值 4.69(VCTK),4.51(LibriSpeech)。
  • 吞吐量目标是在单 GPU 服务器上,使用自定义内核和并行 WORLD 推理,达到每天一千万查询。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。