Skip to main content
QUICK REVIEW

[论文解读] Deep Voice 3: 2000-Speaker Neural Text-to-Speech

Wei Ping, Kainan Peng|arXiv (Cornell University)|Oct 20, 2017
Speech Recognition and Synthesis参考文献 14被引用 232
一句话总结

Deep Voice 3 是一种完全基于卷积、基于注意力机制的神经文本转语音系统,在训练速度比以往方法快十倍的同时,实现了最先进的自然度。它可扩展至来自2000多名说话人的800多小时音频,并可在单张GPU上实现每秒十亿次查询的推理速度。

ABSTRACT

We present Deep Voice 3, a fully-convolutional attention-based neural text-to-speech (TTS) system. Deep Voice 3 matches state-of-the-art neural speech synthesis systems in naturalness while training ten times faster. We scale Deep Voice 3 to data set sizes unprecedented for TTS, training on more than eight hundred hours of audio from over two thousand speakers. In addition, we identify common error modes of attention-based speech synthesis networks, demonstrate how to mitigate them, and compare several different waveform synthesis methods. We also describe how to scale inference to ten million queries per day on one single-GPU server.

研究动机与目标

  • 开发一种完全基于卷积、基于注意力机制的神经文本转语音系统,以达到最先进的自然度。
  • 将文本转语音训练扩展至前所未有的大规模数据集,音频总量超过800小时,来自2000多名说话人。
  • 识别并缓解基于注意力机制的语音合成网络中的常见错误模式。
  • 在大规模文本转语音系统中,对比并评估不同的波形合成方法。
  • 实现在生产环境中单张GPU部署下每秒支持一千万次查询的高吞吐量推理。

提出的方法

  • 该系统采用完全基于卷积的架构,不包含循环层,从而实现更快的训练和推理速度。
  • 在自回归生成过程中,使用注意力机制将文本输入与声学输出对齐。
  • 波形合成通过可微分声码器实现,评估了多种方法在质量与效率方面的表现。
  • 模型在大规模数据集上端到端训练,数据集包含超过2000名说话人和800多小时的音频。
  • 通过架构设计选择,减少与循环模型相比的计算瓶颈,从而提升训练效率。
  • 推理通过模型量化和高效推理流水线进行优化,实现在单张GPU上每秒支持一千万次查询。

实验结果

研究问题

  • RQ1如何通过完全基于卷积的文本转语音架构,在训练速度比以往系统快十倍的同时,实现最先进的自然度?
  • RQ2基于注意力机制的文本转语音中的主要错误模式是什么?如何通过架构和训练调整系统性地缓解这些错误?
  • RQ3在大规模数据集上,不同波形合成方法在质量与效率方面的表现如何比较?
  • RQ4在不降低性能的前提下,文本转语音模型在多大程度上可以扩展至超大规模数据集(800+小时,2000+名说话人)?
  • RQ5在生产环境中,单张GPU部署下可实现多高的推理吞吐量?

主要发现

  • 尽管采用完全基于卷积的架构且无循环结构,Deep Voice 3 仍实现了神经文本转语音的最先进的自然度。
  • 由于架构效率的提升,该系统训练速度比以往的基于注意力机制的文本转语音模型快十倍。
  • 通过架构和训练调整,系统识别并缓解了基于注意力机制的文本转语音中的常见错误模式,如注意力对齐错误和对罕见词的注意力缺失。
  • 对多种波形合成方法进行了比较,可微分声码器在质量与端到端训练的兼容性方面表现出色。
  • 系统可在单张GPU上实现每秒十亿次查询的推理,证明了其出色的可扩展性。
  • 将模型扩展至2000多名说话人和800多小时的音频并未导致性能下降,证实了该架构的鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。