QUICK REVIEW

[论文解读] ClariNet: Parallel Wave Generation in End-to-End Text-to-Speech

Wei Ping, Kainan Peng|arXiv (Cornell University)|Jul 19, 2018

Speech Recognition and Synthesis参考文献 37被引用 63

一句话总结

本文提出从自回归 WaveNet 派生的高斯逆自回归流（IAF）蒸馏，以实现并行波形合成，并展示了一个端到端的完全卷积式文本到波形 TTS 架构，配合蒸馏得到的并行声码器。

ABSTRACT

In this work, we propose a new solution for parallel wave generation by WaveNet. In contrast to parallel WaveNet (van den Oord et al., 2018), we distill a Gaussian inverse autoregressive flow from the autoregressive WaveNet by minimizing a regularized KL divergence between their highly-peaked output distributions. Our method computes the KL divergence in closed-form, which simplifies the training algorithm and provides very efficient distillation. In addition, we introduce the first text-to-wave neural architecture for speech synthesis, which is fully convolutional and enables fast end-to-end training from scratch. It significantly outperforms the previous pipeline that connects a text-to-spectrogram model to a separately trained WaveNet (Ping et al., 2018). We also successfully distill a parallel waveform synthesizer conditioned on the hidden representation in this end-to-end model.

研究动机与目标

推动基于 WaveNet 的 TTS 实现快速且高保真的并行波形生成。
引入一个从零开始训练的全卷积端到端文本到波形架构。
证明单个高斯输出足以建模原始波形。
开发基于正则化 KL 散度的蒸馏方法，以从自回归 WaveNet 训练高斯 IAF。
表明以端到端隐藏表示为条件蒸馏出的并行声码器能够取得有竞争力的结果。

提出的方法

使用高斯自回归 WaveNet 作为教师模型，p(x_t|x_<t) = N(mu, sigma)。
通过最小化 q(x_t|z_<t) 和 p(x_t|x_<t) 之间的正则化 KL 散度 KL^reg，带有逐时步的闭式 KL 表达式，蒸馏出高斯 IAF 作为学生。
计算包含正则化 KL 与基于 STFT 的帧损失的组合损失以稳定训练。
开发一个完全卷积式文本到波形架构（编码器、解码器、桥接网络、声码器），可从零开始端到端训练，将 WaveNet 以隐藏表示为条件，而非声谱图。
在教师和学生之间共享条件信息；可选地蒸馏一个以端到端表示为条件的并行声码器。
在训练中截剪对数方差以实现数值稳定，并使用简单的高斯输出代替混合模型。

实验结果

研究问题

RQ1单个高斯输出是否足以在不损失质量的情况下建模原始 WaveNet 波形？
RQ2是否可以从自回归 WaveNet 蒸馏出具有闭式、稳定 KL 散度的高斯 IAF？
RQ3从零开始训练的端到端文本到波形体系结构是否优于将文本-声谱图与声码器分离的传统流水线方法？
RQ4在端到端 TTS 中，蒸馏出的并行声码器与自回归声码器相比如何？
RQ5在此蒸馏过程中有哪些有效的稳定化技术（例如 KL 正则化、STFT 损失）？

主要发现

单个高斯输出分布足以用于 WaveNet 波形建模，且 MOS 与 MoG/MoL/Softmax 相当。
带正则化 KL 散度的高斯 IAF 蒸馏使 Student-1/Student-2 的 MOS 约为 4.16–4.22，优于部分基线。
端到端文本到波形模型的性能优于分开训练的流水线（MOS 大约 4.15 对比 DV3+WaveNet 基线的 3.81–3.73）。
使用蒸馏并行声码器进行推理的速度约为 GTX 1080 Ti 时实的 20 倍。
蒸馏的并行声码器与自回归声码器具有竞争力，尽管仅以端到端表示为条件时 MOS 略低。
该方法实现了快速、全卷积、端到端的 TTS，可以从零开始训练，并受益于闭式 KL 蒸馏。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。