Skip to main content
QUICK REVIEW

[论文解读] StarGAN-VC: Non-parallel many-to-many voice conversion with star generative adversarial networks

Hirokazu Kameoka, Takuhiro Kaneko|arXiv (Cornell University)|Jun 6, 2018
Speech Recognition and Synthesis参考文献 37被引用 48
一句话总结

StarGAN-VC 通过以目标属性为条件的单一生成器实现非并行的多对多语音转换,训练数据仅几分钟即可实现实时性能,并在主观测试中超越 VAE-GAN 基线。

ABSTRACT

This paper proposes a method that allows non-parallel many-to-many voice conversion (VC) by using a variant of a generative adversarial network (GAN) called StarGAN. Our method, which we call StarGAN-VC, is noteworthy in that it (1) requires no parallel utterances, transcriptions, or time alignment procedures for speech generator training, (2) simultaneously learns many-to-many mappings across different attribute domains using a single generator network, (3) is able to generate converted speech signals quickly enough to allow real-time implementations and (4) requires only several minutes of training examples to generate reasonably realistic-sounding speech. Subjective evaluation experiments on a non-parallel many-to-many speaker identity conversion task revealed that the proposed method obtained higher sound quality and speaker similarity than a state-of-the-art method based on variational autoencoding GANs.

研究动机与目标

  • 在没有并行说话语句或对齐的前提下,实现跨越多目标属性的非并行语音转换(多对多)。
  • 使用单一生成器网络高效建模所有属性域之间的映射。
  • 实现可用于实际部署的实时或近实时语音转换。
  • 展示在主观语音质量和说话人相似性方面优于 VAE-GAN 基线。

提出的方法

  • 采用 StarGAN,在单一编码器–解码器生成器 G 条件于目标属性 c 的情况下,学习多个域映射。
  • 训练一个 real/fake 判别器 D 和一个域分类器 C,以确保转换后的语音真实且属于目标属性。
  • 使用对抗损失 L_adv、域分类损失 L_cls、循环一致性损失 L_cyc 和恒等损失 L_id 来对映射进行正则化(Equations 9–17)。
  • 将属性表示为级联的一热向量,并将 G 建模为一个带有门控线性单元(GLU)的全卷积卷积神经网络,采用编码器–解码器结构。
  • 采用类 PatchGAN 的判别器 D 和在声学特征序列(mel-cepstral coefficients)上工作的域分类器 C,以生成分段级别的 real/fake 和类别概率。
  • 通过 WORLD 使用 mel-cepstral 特征对序列进行转换,并通过 vocoder(Section 3.2)进行基于谱增益的时域重建。

实验结果

研究问题

  • RQ1是否可以使用 StarGAN 的单一生成器实现非并行的多对多语音转换?
  • RQ2在实现跨多个说话人进行多样属性转移的同时,StarGAN-VC 是否能保留语言内容?
  • RQ3该方法是否能实现实时转换,并且是否仅需几分钟的训练数据?
  • RQ4在质量和相似性方面,StarGAN-VC 与 CVAE-VC 或 CycleGAN-VC 等非并行 VC 方法相比如何?

主要发现

  • 主观评估显示 StarGAN-VC 相较于 VAE-GAN 基线具有更高的音质。
  • 在 ABX 测试中,StarGAN-VC 对目标说话人的相似性优于基线。
  • 该方法在跨越多个说话人属性时,使用单一生成器实现非并行多对多转换。
  • 该方法具有近实时的效率,并且只需几分钟的训练数据。
  • 在 VCC 2018 数据集上,使用四个目标说话人进行的实验显示感知质量和相似性方面的显著性能提升。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。