[论文解读] Deep Voice: Real-time Neural Text-to-Speech
本文提出 Deep Voice,这是一个完全神经网络、可生产级别的 TTS 系统,包含五个组件(G2P、分割、时长、F0、以及音频合成),并在大规模数据集上演示了 Faster-than-real-time 的推理与优化的 WaveNet 训练。
We present Deep Voice, a production-quality text-to-speech system constructed entirely from deep neural networks. Deep Voice lays the groundwork for truly end-to-end neural speech synthesis. The system comprises five major building blocks: a segmentation model for locating phoneme boundaries, a grapheme-to-phoneme conversion model, a phoneme duration prediction model, a fundamental frequency prediction model, and an audio synthesis model. For the segmentation model, we propose a novel way of performing phoneme boundary detection with deep neural networks using connectionist temporal classification (CTC) loss. For the audio synthesis model, we implement a variant of WaveNet that requires fewer parameters and trains faster than the original. By using a neural network for each component, our system is simpler and more flexible than traditional text-to-speech systems, where each component requires laborious feature engineering and extensive domain expertise. Finally, we show that inference with our system can be performed faster than real time and describe optimized WaveNet inference kernels on both CPU and GPU that achieve up to 400x speedups over existing implementations.
研究动机与目标
- 用一个完全神经网络的端到端系统替换传统的手工设计的TTS管线。
- 通过基于 WaveNet 的音频合成的优化,展示支持实时推理。
- 在尽量少的人工标注和超参数调优的情况下,展示对新数据集的适应性。
- 在 CPU 和 GPU 硬件上开发高效的训练和推理流程。
提出的方法
- 五块TTS架构:字母到音素、分割(基于CTC)、音素时长、F0和音频合成。
- 基于具备GRU解码器和束搜索的多层双向编码器的字母到音素模型。
- 分割模型使用卷积递归网络,结合CTC损失和音素对标签以改进边界检测。
- 联合音素时长和F0模型,预测时长、发声与20个时序F0值,并具有一个综合损失函数。
- 音频合成模型是WaveNet的一个变体,使用QRNN前编码器以提高训练速度,并实现实时能力、经过优化的推理流水线;描述了用于实时性能的CPU和GPU内核。
实验结果
研究问题
- RQ1本质上能否仅靠神经网络组件而无手工设计特征来构建一个生产级TTS系统?
- RQ2通过优化的 WaveNet 型声码器,能否实现实时或超实时的音频合成?
- RQ3分割、时长和F0预测组件如何影响整体语音自然度与清晰度?
- RQ4系统在不同数据集(内部英语、 Blizzard Blizzard 2013)上的表现如何,感知结果是什么?
- RQ5在生产环境中,模型大小、推理速度与音质之间的权衡是什么?
主要发现
- 通过基于CTC的分割实现的音素边界检测,在约14k次迭代后达到7%的音素对错误率。
- 在没有语言模型的情况下,CMUDict样式数据上的字母到音素模型达到音素错误率5.8%和词错误率28.7%。
- 在约20k次迭代后,音素时长的平均绝对误差为38 ms,F0误差为29.4 Hz。
- 40层 WaveNet 及其 QRNN 前编码器能产生高质量语音;20/30/40层模型都能产生可用音频,40层模型噪声更少。
- MOS 结果显示真实语音(48 kHz)约为 4.75±0.12;使用 40 层模型、48 kHz 的合成带压缩音频约为 3.84±0.24;使用真实时长/F0 的合成约为 2.00±0.23;基于 CPU/GPU 的实时推理基准显示取决于模型大小的实时性与接近实时性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。