Skip to main content
QUICK REVIEW

[论文解读] AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss

Kaizhi Qian, Yang Zhang|arXiv (Cornell University)|May 14, 2019
Speech Recognition and Synthesis参考文献 32被引用 195
一句话总结

AutoVC 使用仅在自重建上训练的瓶颈自编码器执行零-shot 语音风格迁移,从而实现非并行的多对多语音转换。

ABSTRACT

Non-parallel many-to-many voice conversion, as well as zero-shot voice conversion, remain under-explored areas. Deep style transfer algorithms, such as generative adversarial networks (GAN) and conditional variational autoencoder (CVAE), are being applied as new solutions in this field. However, GAN training is sophisticated and difficult, and there is no strong evidence that its generated speech is of good perceptual quality. On the other hand, CVAE training is simple but does not come with the distribution-matching property of a GAN. In this paper, we propose a new style transfer scheme that involves only an autoencoder with a carefully designed bottleneck. We formally show that this scheme can achieve distribution-matching style transfer by training only on a self-reconstruction loss. Based on this scheme, we proposed AUTOVC, which achieves state-of-the-art results in many-to-many voice conversion with non-parallel data, and which is the first to perform zero-shot voice conversion.

研究动机与目标

  • 激励非并行、无并行数据的多对多语音转换。
  • 开发一种简单的基于自编码器的风格迁移,匹配目标分布。
  • 利用预训练的说话人嵌入实现对看不见的说话人进行 zero-shot 转换。
  • 通过精心设计的瓶颈将内容与说话人信息解耦。
  • 提供理论依据,证明自编码器能够实现分布匹配。

提出的方法

  • 提出一个三模块框架:内容编码器、说话人编码器和解码器。
  • 使用自重建损失和内容一致性损失进行训练,以强制实现解耦。
  • 通过时间下采样和通道缩减等精心设计的瓶颈来分离内容和说话人信息。
  • 使用 GE2E 损失预训练说话人编码器,以实现对未见说话人的嵌入用于零-shot 转换。
  • 使用基于声谱图的自编码器解码,并添加 post-net 以细化声谱图细节。
  • 加入 WaveNet 声码器,从转换后的声谱图合成最终波形。

实验结果

研究问题

  • RQ1仅在自重建上训练的自编码器是否能实现对语音转换的分布匹配风格迁移?
  • RQ2是否可以调节瓶颈以将说话人信息从内容中解耦,以实现零-shot 转换?
  • RQ3所提出的 AutoVC 框架在非并行的多对多语音转换(包括未见说话人)上表现是否良好?
  • RQ4预训练的说话人嵌入是否足以在没有并行数据的情况下支持零-shot 转换?

主要发现

  • AutoVC 在传统的带有已知说话人的非并行多对多语音转换上达到最先进的性能。
  • AutoVC 能够使用未见说话人实现零-shot 语音转换,性能尚可。
  • 主观 MOS 分数超过基线非并行方法,并接近并行/转换质量。
  • 一个良好调优的瓶颈在重建质量和说话人解耦之间取得平衡,从而实现有效转换。
  • AutoVC-one-hot 实验表明说话人嵌入对增益的贡献低于瓶颈设计。
  • Table 1 显示在 narrow、AutoVC、wide 瓶颈之间,重建质量与解耦之间的权衡。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。