QUICK REVIEW

[论文解读] Sample Efficient Adaptive Text-to-Speech

Yutian Chen, Yannis Assael|arXiv (Cornell University)|Sep 27, 2018

Speech Recognition and Synthesis参考文献 47被引用 75

一句话总结

本论文介绍基于元学习的策略，将多说话人 WaveNet TTS 模型适应到新的说话者，数据量极少，通过三种适应方法：嵌入微调、全模型微调，以及嵌入编码器方法，实现高自然度和说话人相似度。

ABSTRACT

We present a meta-learning approach for adaptive text-to-speech (TTS) with few data. During training, we learn a multi-speaker model using a shared conditional WaveNet core and independent learned embeddings for each speaker. The aim of training is not to produce a neural network with fixed weights, which is then deployed as a TTS system. Instead, the aim is to produce a network that requires few data at deployment time to rapidly adapt to new speakers. We introduce and benchmark three strategies: (i) learning the speaker embedding while keeping the WaveNet core fixed, (ii) fine-tuning the entire architecture with stochastic gradient descent, and (iii) predicting the speaker embedding with a trained neural network encoder. The experiments show that these approaches are successful at adapting the multi-speaker neural network to new speakers, obtaining state-of-the-art results in both sample naturalness and voice similarity with merely a few minutes of audio data from new speakers.

研究动机与目标

激发并解决在有限数据下对新说话者进行快速高质量 TTS 自适应的挑战。
开发一个元学习框架，学习一个说话者条件化的 WaveNet 先验，而不是一个固定的最终模型。
探索三种适应策略，在少量示例下将模型定制到新声音。

提出的方法

在一个大型多说话人模型中，通过为每个说话人添加个体嵌入来扩展 WaveNet。
三种适应策略：(i) SEA-Emb — 仅微调说话人嵌入，核心 WaveNet 固定；(ii) SEA-All — 同时微调嵌入和全模型；(iii) SEA-Enc — 训练一个编码器，通过演示数据预测新的说话人嵌入。
对 f0 进行归一化，以减少来自音高特征的说话人身份泄露。
使用两个保留用于评估的自适应数据集（LibriSpeech 和 VCTK）来在不同数据条件下评估少样本自适应。
与现有的少样本 TTS 方法进行比较，并报告自然度（MOS）和说话人相似度（MOS 和 TI-SV EER）。

实验结果

研究问题

RQ1能否用具有共享核心和每个说话人嵌入的多说话人 WaveNet，在只有几秒至几分钟数据的情况下，快速适应未见说话者？
RQ2无参数（SEA-Emb、SEA-All）和参数化（SEA-Enc）适应策略在自然度和说话人相似度方面的对比如何？
RQ3适应数据量对生成语音的质量和说话人可辨别性的影响是什么？
RQ4适应后的模型是否在不同条件下录制的数据集之间泛化（LibriSpeech vs. VCTK）？

主要发现

三种适应方法都能在仅需几秒至几分钟的自适应数据下，为新说话者生成高质量语音。
SEA-All（在嵌入优化后对全模型进行微调）在三个方法中在各数据集和数据条件下提供最强的性能。
SEA-Emb 参数较少、适应迅速且更不易过拟合，而当有足够的自适应数据时，SEA-All 往往达到最佳自然度和说话人相似度。
SEA-Enc 提供了一条快速的、与转录无关的自适应路径，但可能受编码器容量影响，在所报告的设置中，一般在自然度和说话人相似度方面比非参数方法表现差。
定性分析表明，生成的语音在 TI-SV 嵌入空间中按说话人聚类，并且在说话人验证任务中可接近真实话语，特别是在 LibriSpeech 上有足够的自适应数据时。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。