QUICK REVIEW

[论文解读] Deep Voice 3: Scaling Text-to-Speech with Convolutional Sequence Learning

Wei Ping, Kainan Peng|arXiv (Cornell University)|Oct 20, 2017

Speech Recognition and Synthesis参考文献 27被引用 103

一句话总结

本文提出一个全卷积、基于注意力的 TTS 系统（Deep Voice 3），其训练速度快于循环模型，能扩展到大规模多说话人数据集，并支持多种声码器，同时实现具有竞争力的自然度。

ABSTRACT

We present Deep Voice 3, a fully-convolutional attention-based neural text-to-speech (TTS) system. Deep Voice 3 matches state-of-the-art neural speech synthesis systems in naturalness while training ten times faster. We scale Deep Voice 3 to data set sizes unprecedented for TTS, training on more than eight hundred hours of audio from over two thousand speakers. In addition, we identify common error modes of attention-based speech synthesis networks, demonstrate how to mitigate them, and compare several different waveform synthesis methods. We also describe how to scale inference to ten million queries per day on one single-GPU server.

研究动机与目标

开发一种全卷卷积、基于注意力的 TTS 架构，能够实现快速训练和可扩展的多说话人合成。
在保持高自然度的同时，将训练扩展到大规模数据集（LibriSpeech 820 小时，2484 个说话人）。
识别并缓解神经 TTS 中常见的注意力失败模式。
用所提模型评估多种波形合成方法（Griffin-Lim、WORLD、WaveNet）。
在单个 GPU 服务器上展示生产就绪的推理吞吐量。

提出的方法

提出一个三部分架构：编码器（文本到表示）、解码器（因果、多跳注意力以自回归方式生成梅尔光谱）、转换器（预测声码器参数）。
使用带门控线性单元和残差连接的全卷积块，以在不进行序列计算的情况下实现长程上下文。
在注意力中加入位置编码以促进单调对齐；可选地将推理约束为单调注意力以提高可靠性。
支持字符-音素联合表示（以及混合输入），以改善发音并减少注意力错误。
采用多任务损失训练：梅尔光谱（L1）以及声码器参数损失（Griffin-Lim、WORLD，或 WaveNet）以实现鲁棒学习。
在多说话人设置中，学习在编码器、解码器和转换器之间共享的说话人嵌入。

实验结果

研究问题

RQ1一个完全卷积的序列到序列 TTS 模型是否能在显著加快训练速度的同时达到最先进的自然度，与基于 RNN 的架构相比？
RQ2当模型扩展到非常大规模的多说话人数据集（LibriSpeech、VCTK）时，感知质量的影响如何？
RQ3单调注意力约束（在推理或训练中）是否能提高对 TTS 中常见注意力错误（重复、发音错误、跳过）的鲁棒性？
RQ4不同波形合成方法（Griffin-Lim、WORLD、WaveNet）如何影响 Deep Voice 3 的感知自然度和延迟？
RQ5在具备自定义推理内核的单 GPU 服务器上，可以实现怎样的生产就绪吞吐量？

主要发现

模型	MOS (VCTK)	MOS (LibriSpeech)
Deep Voice 3 (Griffin-Lim)	3.01±0.29	2.37±0.24
Deep Voice 3 (WORLD)	3.44±0.32	2.89±0.38
Tacotron (Griffin-Lim)	2.07±0.31	-
Ground truth	4.69±0.04	4.51±0.18

训练比同类基于 RNN 的架构（如 Tacotron）快一个数量级，在单 speaker 的情况下，单次迭代时间约为 0.06s（一个 GPU），而 Tacotron 为 0.59s。
模型可扩展到 LibriSpeech（820 小时，2484 个说话人）以及像 VCTK 这样的多说话人数据集，使单一模型能够实现数千种声音。
单调注意力策略（推理时约束或带单调对齐的训练）减少注意力错误模式（重复、发音错误、跳过）并提升输出质量。
MOS 比较显示 WaveNet 声码器在评估的声码器中自然度最高（3.78）；WORLD（3.63）和 Griffin-Lim（3.62）相近，WaveNet 提供最佳感知质量，WORLD 在 CPU 上推理更快。
在多说话人 LibriSpeech 上，DV3 使用 WORLD 的 MOS 为 2.89，使用 Griffin-Lim 为 2.37；DV3 在 VCTK 上使用 WORLD 达到 3.44，显示跨数据集的竞争性能。
该系统支持生产级推理，在具备自定义内核的单 GPU 服务器上，结合 CPU 并行化的 WORLD 合成为每日约一千万次查询的吞吐量。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。