Skip to main content
QUICK REVIEW

[论文解读] Neural Voice Cloning with a Few Samples

Sercan Ö. Arık, Jitong Chen|arXiv (Cornell University)|Feb 14, 2018
Speech Recognition and Synthesis参考文献 43被引用 175
一句话总结

本文提出两种从少量样本克隆说话人声音的方法:说话人自适应(对多说话人模型进行微调)和说话人编码(训练编码器从极少量数据推断说话人嵌入)。它评估自然度和相似性,并引入通过说话人分类与验证的自动化评估,以及通过嵌入操作实现的声音形变(voice morphing)。

ABSTRACT

Voice cloning is a highly desired feature for personalized speech interfaces. Neural network based speech synthesis has been shown to generate high quality speech for a large number of speakers. In this paper, we introduce a neural voice cloning system that takes a few audio samples as input. We study two approaches: speaker adaptation and speaker encoding. Speaker adaptation is based on fine-tuning a multi-speaker generative model with a few cloning samples. Speaker encoding is based on training a separate model to directly infer a new speaker embedding from cloning audios and to be used with a multi-speaker generative model. In terms of naturalness of the speech and its similarity to original speaker, both approaches can achieve good performance, even with very few cloning audios. While speaker adaptation can achieve better naturalness and similarity, the cloning time or required memory for the speaker encoding approach is significantly less, making it favorable for low-resource deployment.

研究动机与目标

  • 证明在仅用少量样本的情况下,将预训练的多说话人 TTS 模型适应到未见说话人的有效性。
  • 提出一种说话人编码方法,在有限音频数据中推断说话人嵌入,而无需微调生成器。
  • 引入基于说话人分类和说话人验证的自动化评估方法,用于克隆质量评估。
  • 通过嵌入操作展示声音形变(性别与口音转换)。
  • 讨论克隆质量、克隆时间和资源需求之间的权衡。

提出的方法

  • 采用基于 Deep Voice 3 的多说话人生成模型,由共享权重 W 和每个说话人嵌入 e_s 参数化。
  • 研究两种克隆策略:(a) 通过微调嵌入本身或整个模型来进行说话人自适应;(b) 通过训练单独的编码器 g(A_s; Θ) 从克隆音频预测 e_s 的说话人编码。
  • 用 L1 损失训练一个说话人编码器,以匹配从预训练模型得到的嵌入,进而实现对未见说话人零样本推断。
  • 使用梅尔声谱图、前网、时序卷积和多头自注意力机制,从多个克隆样本聚合信息。
  • 使用人工 MOS 和相似性测试以及判别模型(说话人分类和说话人验证)来评估克隆质量。
  • 通过操作潜在嵌入来实现基于嵌入的声音形变,以改变性别和口音。

实验结果

研究问题

  • RQ1是否可以仅用少量样本快速将预训练的多说话人 TTS 模型适应到未见说话人?
  • RQ2是否有专用的说话人编码器能够在不微调生成器的情况下产生有效的说话人嵌入?
  • RQ3在自然度和说话人相似度方面,克隆方法在数据有限时表现如何?
  • RQ4自动化的判别评估(说话人分类和验证)是否能可靠地评估克隆质量?
  • RQ5是否可以通过对嵌入的操控实现可控的声音形变(性别、口音)?

主要发现

  • 在只有少量克隆音频的情况下,说话人自适应和说话人编码都能实现良好的自然度和相似性。
  • 整体模型自适应在有更多克隆数据时通常能得到更好的相似性,而仅嵌入适应的训练速度更快。
  • 说话人编码显著降低克隆时间和内存占用,使其更适合低资源部署。
  • 使用说话人分类和验证的自动评估与人类对克隆质量的判断相关。
  • 嵌入操作能够在克隆声音中产生可理解的性别和口音转换。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。