Skip to main content
QUICK REVIEW

[论文解读] Sample Efficient Adaptive Text-to-Speech

Yutian Chen, Yannis Assael|arXiv (Cornell University)|Sep 27, 2018
Speech Recognition and Synthesis参考文献 47被引用 75
一句话总结

本论文介绍基于元学习的策略,将多说话人 WaveNet TTS 模型适应到新的说话者,数据量极少,通过三种适应方法:嵌入微调、全模型微调,以及嵌入编码器方法,实现高自然度和说话人相似度。

ABSTRACT

We present a meta-learning approach for adaptive text-to-speech (TTS) with few data. During training, we learn a multi-speaker model using a shared conditional WaveNet core and independent learned embeddings for each speaker. The aim of training is not to produce a neural network with fixed weights, which is then deployed as a TTS system. Instead, the aim is to produce a network that requires few data at deployment time to rapidly adapt to new speakers. We introduce and benchmark three strategies: (i) learning the speaker embedding while keeping the WaveNet core fixed, (ii) fine-tuning the entire architecture with stochastic gradient descent, and (iii) predicting the speaker embedding with a trained neural network encoder. The experiments show that these approaches are successful at adapting the multi-speaker neural network to new speakers, obtaining state-of-the-art results in both sample naturalness and voice similarity with merely a few minutes of audio data from new speakers.

研究动机与目标

  • 激发并解决在有限数据下对新说话者进行快速高质量 TTS 自适应的挑战。
  • 开发一个元学习框架,学习一个说话者条件化的 WaveNet 先验,而不是一个固定的最终模型。
  • 探索三种适应策略,在少量示例下将模型定制到新声音。

提出的方法

  • 在一个大型多说话人模型中,通过为每个说话人添加个体嵌入来扩展 WaveNet。
  • 三种适应策略:(i) SEA-Emb — 仅微调说话人嵌入,核心 WaveNet 固定;(ii) SEA-All — 同时微调嵌入和全模型;(iii) SEA-Enc — 训练一个编码器,通过演示数据预测新的说话人嵌入。
  • 对 f0 进行归一化,以减少来自音高特征的说话人身份泄露。
  • 使用两个保留用于评估的自适应数据集(LibriSpeech 和 VCTK)来在不同数据条件下评估少样本自适应。
  • 与现有的少样本 TTS 方法进行比较,并报告自然度(MOS)和说话人相似度(MOS 和 TI-SV EER)。

实验结果

研究问题

  • RQ1能否用具有共享核心和每个说话人嵌入的多说话人 WaveNet,在只有几秒至几分钟数据的情况下,快速适应未见说话者?
  • RQ2无参数(SEA-Emb、SEA-All)和参数化(SEA-Enc)适应策略在自然度和说话人相似度方面的对比如何?
  • RQ3适应数据量对生成语音的质量和说话人可辨别性的影响是什么?
  • RQ4适应后的模型是否在不同条件下录制的数据集之间泛化(LibriSpeech vs. VCTK)?

主要发现

  • 三种适应方法都能在仅需几秒至几分钟的自适应数据下,为新说话者生成高质量语音。
  • SEA-All(在嵌入优化后对全模型进行微调)在三个方法中在各数据集和数据条件下提供最强的性能。
  • SEA-Emb 参数较少、适应迅速且更不易过拟合,而当有足够的自适应数据时,SEA-All 往往达到最佳自然度和说话人相似度。
  • SEA-Enc 提供了一条快速的、与转录无关的自适应路径,但可能受编码器容量影响,在所报告的设置中,一般在自然度和说话人相似度方面比非参数方法表现差。
  • 定性分析表明,生成的语音在 TI-SV 嵌入空间中按说话人聚类,并且在说话人验证任务中可接近真实话语,特别是在 LibriSpeech 上有足够的自适应数据时。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。