QUICK REVIEW

[论文解读] Speaker-adaptive neural vocoders for statistical parametric speech synthesis systems.

Eunwoo Song, Jinseob Kim|arXiv (Cornell University)|Nov 8, 2018

Speech Recognition and Synthesis参考文献 22被引用 2

一句话总结

本文提出了一种面向统计参数化TTS系统的说话人自适应神经声码器，旨在仅使用有限的目标说话人数据时提升语音质量。通过先训练一个说话人无关的模型，并仅使用10分钟语音对特定说话人进行微调，该方法在韩语中实现了男性3.80、女性3.77的MOS评分，优于传统源-滤波器声码器和标准WaveNet方法。

ABSTRACT

This paper proposes speaker-adaptive neural vocoders for parametric text-to-speech (TTS) systems. Recently proposed WaveNet-based neural vocoding systems successfully generate a time sequence of speech signal with an autoregressive framework. However, it remains a challenge to synthesize high-quality speech when the amount of a target speaker's training data is insufficient. To generate more natural speech signals with the constraint of limited training data, we propose a speaker adaptation task with an effective variation of neural vocoding models. In the proposed method, a speaker-independent training method is applied to capture universal attributes embedded in multiple speakers, and the trained model is then optimized to represent the specific characteristics of the target speaker. Experimental results verify that the proposed TTS systems with speaker-adaptive neural vocoders outperform those with traditional source-filter model-based vocoders and those with WaveNet vocoders, trained either speaker-dependently or speaker-independently. In particular, our TTS system achieves 3.80 and 3.77 MOS for the Korean male and Korean female speakers, respectively, even though we use only ten minutes' speech corpus for training the model.

研究动机与目标

解决在目标说话人训练数据稀缺时语音合成质量低下的挑战。
在仅使用极少说话人特异性数据的情况下，提升统计参数化TTS系统中合成语音的自然度与质量。
开发一种神经声码器，利用说话人无关的预训练，并能有效适应新说话人，且仅需少量数据。
在说话人相关与说话人无关设置下，均优于现有声码器，包括基于WaveNet和源-滤波器的模型。

提出的方法

在多样化的说话人数据上训练神经声码器模型，以说话人无关的方式学习通用语音特征。
在目标说话人有限语音数据（10分钟）上微调预训练模型，以适应说话人特异性特征。
采用自回归WaveNet风格架构，从声学特征生成高保真语音波形。
通过条件建模实现说话人自适应，即在推理时根据目标说话人的数据条件化说话人嵌入。
结合重建损失与感知损失优化声码器，以提升语音自然度。
将微调后的声码器集成到统计参数化TTS流程中，实现端到端语音合成。

实验结果

研究问题

RQ1当仅能获取极少量目标说话人数据时，说话人自适应神经声码器是否能显著提升语音质量？
RQ2与说话人无关或说话人相关训练相比，说话人自适应训练在感知质量方面表现如何？
RQ3预训练的说话人无关模型在仅使用10分钟数据的情况下，能否被有效微调以适配新说话人？
RQ4在低数据场景下，所提方法是否优于传统源-滤波器声码器和标准WaveNet声码器？

主要发现

所提出的说话人自适应神经声码器在仅使用10分钟训练数据的情况下，韩语男性说话人的平均意见得分（MOS）达到3.80。
对于韩语女性说话人，系统实现了3.77的MOS评分，表明即使在数据极少的情况下仍具有高度自然度。
该系统在性能上优于基于传统源-滤波器模型的声码器以及以说话人相关或说话人无关模式训练的标准WaveNet声码器。
说话人自适应方法在低数据场景下相比基线方法实现了显著的质量提升。
通过微调，该方法有效捕捉了说话人特异性特征，从而实现更自然且说话人一致的语音合成。
结果证实，先进行说话人无关的预训练，再进行针对性微调，相比从零开始在有限数据上训练，性能更优。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。