QUICK REVIEW

[论文解读] Towards Robust Neural Vocoding for Speech Generation: A Survey

Po‐Chun Hsu, Chun-hsuan Wang|arXiv (Cornell University)|Dec 5, 2019

Speech Recognition and Synthesis参考文献 24被引用 23

一句话总结

本综述评估了四种神经声码器——WaveNet、WaveRNN、FFTNet 和 Parallel WaveGAN——在不同训练与推理条件下的鲁棒性，包括未见过的说话人、语言和语音合成任务。结果表明，说话人多样性比语言多样性对泛化能力的影响更大，WaveNet 和 WaveRNN 在文本到语音任务中表现优异，而 Parallel WaveGAN 在语音转换应用中优于其他模型。

ABSTRACT

Recently, neural vocoders have been widely used in speech synthesis tasks, including text-to-speech and voice conversion. However, when encountering data distribution mismatch between training and inference, neural vocoders trained on real data often degrade in voice quality for unseen scenarios. In this paper, we train four common neural vocoders, including WaveNet, WaveRNN, FFTNet, Parallel WaveGAN alternately on five different datasets. To study the robustness of neural vocoders, we evaluate the models using acoustic features from seen/unseen speakers, seen/unseen languages, a text-to-speech model, and a voice conversion model. We found out that the speaker variety is much more important for achieving a universal vocoder than the language. Through our experiments, we show that WaveNet and WaveRNN are more suitable for text-to-speech models, while Parallel WaveGAN is more suitable for voice conversion applications. Great amount of subjective MOS results in naturalness for all vocoders are presented for future studies.

研究动机与目标

研究神经声码器在训练数据与推理数据分布发生变化时的鲁棒性。
评估说话人和语言可变性对神经声码器在未见条件下的泛化性能的影响。
比较四种主流神经声码器——WaveNet、WaveRNN、FFTNet 和 Parallel WaveGAN——在文本到语音和语音转换任务中的性能。
为未来神经声码建模的基准测试和模型开发提供广泛的主观 MOS 结果。

提出的方法

在五个不同数据集上训练了四种神经声码器——WaveNet、WaveRNN、FFTNet 和 Parallel WaveGAN：单说话人/多说话人和单语言/多语言数据集。
采用标准化评估协议，使用 8 位量化波形和平均意见得分（MOS）调查进行主观质量评估。
在真实语音、说话人泛化能力（包括性别）以及使用 Tacotron2 和语音转换模型的端到端语音合成任务中评估模型。
应用标准指标：MOS 用于自然度评估，并在语音转换中将神经声码器与 Griffin-Lim 作为启发式基线进行比较。
修改模型输入以匹配梅尔频谱图输入，确保不同架构之间的公平比较。
在已见和未见领域进行推理，包括跨语言和跨说话人设置。

实验结果

研究问题

RQ1当在未见过的说话人上测试时，说话人可变性如何影响神经声码器的鲁棒性？
RQ2语言可变性如何影响神经声码器在未见语言场景下的泛化性能？
RQ3当声码器在与上游 TTS 模型不同的数据集上训练时，哪种神经声码器在文本到语音合成中表现最佳？
RQ4在训练数据分布外的情况下，哪种神经声码器在语音转换任务中实现了最高的自然度和鲁棒性？
RQ5在分布偏移条件下，自回归模型（WaveNet、WaveRNN）与非自回归模型（Parallel WaveGAN、FFTNet）的相对性能如何？

主要发现

说话人多样性比语言多样性对神经声码器鲁棒性的影响更为关键；在多样化说话人上训练的模型能更好地泛化到未见过的说话人。
当在与上游 TTS 模型相同的数据分布上训练时（例如 LJ Speech），WaveNet 和 WaveRNN 在文本到语音合成中取得了最高的 MOS 得分，其中 WaveRNN 在 LJ 数据上达到 4.16 ± 0.18 的 MOS。
Parallel WaveGAN 在语音转换任务中优于所有其他声码器，在 VCTK 数据上达到 3.83 ± 0.20 的 MOS，显著优于 Griffin-Lim（2.72 ± 0.21 MOS）。
WaveNet 在分布外条件下表现出最一致的性能，尽管推理速度较慢，但展现出卓越的鲁棒性。
FFTNet 的整体 MOS 得分较低（例如，在 LJ 数据上为 2.75 ± 0.27），表明其作为通用声码器的适用性有限。
条件模型（真实对齐预测）达到了最高的 MOS（4.54 ± 0.16），可作为文本到语音质量的上限。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。