[论文解读] Parallel WaveNet: Fast High-Fidelity Speech Synthesis
本论文通过从训练好的 WaveNet 教师模型进行 Probability Density Distillation,训练并行前馈的接近 WaveNet 的模型,在与实时速度相比超过20x的高保真语音生成,并实现在线部署到 Google Assistant。
The recently-developed WaveNet architecture is the current state of the art in realistic speech synthesis, consistently rated as more natural sounding for many different languages than any previous system. However, because WaveNet relies on sequential generation of one audio sample at a time, it is poorly suited to today's massively parallel computers, and therefore hard to deploy in a real-time production setting. This paper introduces Probability Density Distillation, a new method for training a parallel feed-forward network from a trained WaveNet with no significant difference in quality. The resulting system is capable of generating high-fidelity speech samples at more than 20 times faster than real-time, and is deployed online by Google Assistant, including serving multiple English and Japanese voices.
研究动机与目标
- 推动高保真语音合成,实现面向生产的实时生成。
- 通过蒸馏为并行模型来克服 WaveNet 的序列采样瓶颈。
- 提出 Probability Density Distillation,使学生模型的分布与教师的分布对齐,同时实现并行采样。
- 通过更高的采样率和离散化的物流混合输出提升音质。
- 展示多说话人和语言迁移能力,并实现生产部署。
提出的方法
- 描述 WaveNet 及其自回归生成在实时部署中的限制。
- 引入逆自回归流(IAF),以在学生模型中实现并行采样。
- 提出 Probability Density Distillation,以训练并行 WaveNet 学生使其分布匹配 WaveNet 教师的分布。
- 采用非共享权重的多流并行 WaveNet 架构以提高采样质量。
- 结合辅助损失(power loss、perceptual loss、contrastive loss)以提升音质和稳定性。
- 通过 MOS、速度基准测试及多说话人/多语言实验进行评估。
实验结果
研究问题
- RQ1并行前馈网络在实现快速并行生成的同时,能否复制 WaveNet 的语音质量?
- RQ2相对于自回归 WaveNet,Probability Density Distillation 是否能够保持感知语音质量?
- RQ3单一并行模型能否支持多种声音/语言,并达到与教师相近的 MOS?
- RQ4在实际硬件上,并行 WaveNet 能实现的实际加速是多少?
- RQ5辅助损失是否进一步提升感知音质和生产就绪度?
主要发现
- 蒸馏后的并行 WaveNet 的 MOS 等同于自回归 WaveNet(4.41 ± 0.08 对 4.41 ± 0.07)。
- 蒸馏的 WaveNet 在 GPU 上的生成速度超过实时的20x(超过 500,000 timesteps/sec 对比自回归的 172 timesteps/sec)。
- 我们实现了高保真多说话人和跨语言合成,并部署在 Google Assistant。
- 增加多个流(例如四个流)提高 MOS(单流 4.21 对多流 4.41)。
- 损失组合(KL 与 Power,以及可选的 Perceptual/Contrastive 项)影响主观偏好,KL+Power 产生强自然度,感知/对比损失提供额外收益。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。