QUICK REVIEW

[论文解读] Voice Conversion from Unaligned Corpora using Variational Autoencoding Wasserstein Generative Adversarial Networks

Chin-Cheng Hsu, Hsin-Te Hwang|arXiv (Cornell University)|Apr 4, 2017

Speech Recognition and Synthesis参考文献 17被引用 153

一句话总结

该论文提出一种非并行语音转换框架，使用条件变分自编码器（C-VAE）与 Wasserstein GAN（W-GAN）相结合，在不进行帧对齐的情况下合成目标语音。它直接在 VAW-GAN objective 下优化 VC 损失，并比基线 VAE 产生更真实的光谱。

ABSTRACT

Building a voice conversion (VC) system from non-parallel speech corpora is challenging but highly valuable in real application scenarios. In most situations, the source and the target speakers do not repeat the same texts or they may even speak different languages. In this case, one possible, although indirect, solution is to build a generative model for speech. Generative models focus on explaining the observations with latent variables instead of learning a pairwise transformation function, thereby bypassing the requirement of speech frame alignment. In this paper, we propose a non-parallel VC framework with a variational autoencoding Wasserstein generative adversarial network (VAW-GAN) that explicitly considers a VC objective when building the speech model. Experimental results corroborate the capability of our framework for building a VC system from unaligned data, and demonstrate improved conversion quality.

研究动机与目标

通过学习一个统一的生成语音模型来弥合并行与非并行语音转换之间的差距，该模型不需要帧对齐。
使用一个说话者无关的编码器来推断音素内容，同时在合成时对说话者表示进行条件化。
通过整合在 VAE 框架中的 Wasserstein GAN 目标，直接优化语音转换质量。

提出的方法

将 VC 表述为一个带有说话者相关解码器的条件 VAE，该解码器将潜在内容 z 与说话者表示 y 结合起来，以重建或转换语音。
通过使用一个判别器来区分真实光谱与生成光谱，为 C-VAE 增强 GAN 目标（VAE-GAN 思路）。
采用 Wasserstein 距离目标，通过一个 1-Lipschitz 判别器，明确地最小化真实目标分布与转换分布之间的距离。
以交替优化方案联合训练编码器、合成器和判别器，目标函数包含 KL 散度、重构损失和 W-GAN 损失（J_vawgan）。
逐帧使用光谱特征（STRAIGHT SP、AP、F0），不进行帧对齐或后滤波，在生成过程中将说话者表示学习为嵌入的 one-hot 向量。

实验结果

研究问题

RQ1在没有帧对齐的情况下，是否可以通过一个统一的深度生成模型有效地执行非并行语音转换？
RQ2将 Wasserstein GAN 目标纳入 VAE 框架是否相对于基线 VAE 提高了转换语音的自然度和光谱真实感？
RQ3直接优化 VC 损失如何影响转换语音的方差与光谱结构？
RQ4使用以说话者为条件的合成器对跨说话者转换质量有何影响？

主要发现

在跨性别和同性别转换的主观自然度(MOS)方面，VAW-GAN 的表现优于 VAE 基线。
VAW-GAN 转换得到的光谱帧呈现更丰富的光谱包络和更明显的频率结构，有助于声音更清晰。
VAW-GAN 的输出显示更高的光谱方差，表明模型不像 VAE 那样将预测强烈塌缩到均值。
逐帧的非并行 VC 在带有条件生成器和 W-GAN 目标的情况下是可行的，相比纯 VAE 方法提升了感知质量。
说话者相似度指标未显示明显改进，表明单一全局说话者表示在捕捉说话者特征方面可能存在局限。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。