QUICK REVIEW

[论文解读] Universal MelGAN: A Robust Neural Vocoder for High-Fidelity Waveform Generation in Multiple Domains

Won Jang, Dan Lim|arXiv (Cornell University)|Nov 19, 2020

Speech Recognition and Synthesis参考文献 24被引用 25

一句话总结

本文提出Universal MelGAN，一种鲁棒的神经声码器，通过将多分辨率频谱图判别器集成到MelGAN框架中，可在多个领域（如未见说话人、情感和语言）生成高保真语音。该方法提升了频谱分辨率并缓解了高频区域的过度平滑问题，在多说话人文本到语音合成中实现了4.22的SOTA平均意见得分（MOS），并支持实时推理（0.028 RTF）。

ABSTRACT

We propose Universal MelGAN, a vocoder that synthesizes high-fidelity speech in multiple domains. To preserve sound quality when the MelGAN-based structure is trained with a dataset of hundreds of speakers, we added multi-resolution spectrogram discriminators to sharpen the spectral resolution of the generated waveforms. This enables the model to generate realistic waveforms of multi-speakers, by alleviating the over-smoothing problem in the high frequency band of the large footprint model. Our structure generates signals close to ground-truth data without reducing the inference speed, by discriminating the waveform and spectrogram during training. The model achieved the best mean opinion score (MOS) in most scenarios using ground-truth mel-spectrogram as an input. Especially, it showed superior performance in unseen domains with regard of speaker, emotion, and language. Moreover, in a multi-speaker text-to-speech scenario using mel-spectrogram generated by a transformer model, it synthesized high-fidelity speech of 4.22 MOS. These results, achieved without external domain information, highlight the potential of the proposed model as a universal vocoder.

研究动机与目标

解决在多说话人数据上训练的大尺寸MelGAN模型在高频带出现的过度平滑问题。
在不牺牲推理速度的前提下提升波形保真度和频谱分辨率。
开发一种能够跨未见领域（包括新说话人、情感和语言）生成高质量语音的通用声码器。
在无需外部领域信息的情况下，实现在已见和未见领域场景下的优越性能。
通过轻量化、可扩展的架构实现实时、高保真语音合成。

提出的方法

引入在不同STFT尺度上运行的多分辨率频谱图判别器，以提升频谱细节并减少高频带的过度平滑。
通过在对抗训练中联合判别波形和频谱图的多尺度判别器，增强原始MelGAN架构。
采用多分辨率STFT损失作为辅助训练目标，结合多种STFT参数设置下的谱收敛损失和对数幅度损失。
使用基于转置卷积和残差块的生成器，通过扩大感受野以改善时间建模。
端到端训练模型，结合对抗损失、多分辨率STFT损失和感知损失，以保留精细的频谱细节。
在基于Transformer的声学模型（JDI-T）生成的预测梅尔频谱图上微调声码器，用于多说话人文本到语音评估。

实验结果

研究问题

RQ1基于MelGAN的声码器是否能在不依赖外部领域信息的情况下泛化到未见说话人、情感和语言？
RQ2添加多分辨率频谱图判别器如何改善高频带的频谱分辨率并减少过度平滑？
RQ3所提模型在已见和未见领域场景下的MOS得分和推理速度表现如何？
RQ4在多说话人文本到语音任务中，该模型与WaveGlow、WaveRNN和FB-MelGAN等SOTA声码器相比表现如何？
RQ5该模型在训练于多样化、多说话人数据集时，能否在保持高保真度和实时推理速度的同时表现良好？

主要发现

Universal MelGAN在多说话人文本到语音合成中实现了4.22的MOS，显著优于WaveGlow（3.36）、WaveRNN（3.06）和FB-MelGAN（3.43）。
在未见领域场景中，模型在未见说话人上达到4.15的MOS，情感为3.91，未见语言为3.67，所有指标均最接近真实录音。
模型在已见与未见领域之间的性能差距最小（例如，韩语中为4.19 vs. 4.05，英语中为3.81 vs. 3.71），表明其具有强鲁棒性。
模型在NVIDIA V100 GPU上实现了0.028的实时因子（RTF），证明其推理效率高，无需硬件优化或降低质量的加速技术。
多分辨率频谱图判别器有效减少了大尺寸模型中高频分量的过度平滑，提升了频谱保真度。
无论在已见还是未见领域评估中，该模型均优于所有基线模型，证明其作为无需外部领域嵌入的通用声码器的巨大潜力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。