QUICK REVIEW

[论文解读] Diffusion-Based Voice Conversion with Fast Maximum Likelihood Sampling Scheme

Popov Va, Ivan Vovk|arXiv (Cornell University)|Sep 28, 2021

Speech Recognition and Synthesis参考文献 36被引用 25

一句话总结

本文提出了一种基于扩散的单-shot 多对多语音转换系统，具有新颖的最大似然 SDE 采样方案，在不重新训练的情况下，最少六步反向扩散即可实现高质量的语音转换。

ABSTRACT

Voice conversion is a common speech synthesis task which can be solved in different ways depending on a particular real-world scenario. The most challenging one often referred to as one-shot many-to-many voice conversion consists in copying the target voice from only one reference utterance in the most general case when both source and target speakers do not belong to the training dataset. We present a scalable high-quality solution based on diffusion probabilistic modeling and demonstrate its superior quality compared to state-of-the-art one-shot voice conversion approaches. Moreover, focusing on real-time applications, we investigate general principles which can make diffusion models faster while keeping synthesis quality at a high level. As a result, we develop a novel Stochastic Differential Equations solver suitable for various diffusion model types and generative tasks as shown through empirical studies and justify it by theoretical analysis.

研究动机与目标

解决未见说话人的一 shot 多对多语音转换挑战。
提出一个带编码器的扩散概率模型，能够创建一个平均语音表示。
开发一个快速、基于似然的 SDE 采样方案，适用于不同的扩散模型类型。
在 Diff-VCTK 和 LibriTTS 上展示与最先进的 VC 基线相比的竞争性能。
分析条件化策略和采样方案，以在质量和速度之间取得平衡。

提出的方法

使用编码器将输入的梅尔谱映射到表示平均语音的平均音素级梅尔特征。
利用以 Itô SDE 参数化的扩散解码器，具有前向（F）和反向（R）动态，生成目标梅尔谱。
通过一个可训练网络 g_t(Y) 将反向扩散条件化到目标说话人，尝试输入类型（d-only、wodyn、whole）。
通过最小化来自 p_t(X_t|X_0) 的分数以及前向扩散统计量推导的加权 L2 损失，训练分数基反向过程。
引入固定步长的最大似然反 SDE 求解器（ML-SDE），给出理论推导的最优参数（kappa*、omega*、sigma*），以在较少步数下最大化路径似然。
在 Diff-VCTK 和 Diff-LibriTTS 上使用 HiFi-GAN 声码器进行评估，并与最先进的单-shot VC 基线进行比较。

实验结果

研究问题

RQ1扩散基框架是否能为未见说话人实现具有竞争力的单-shot 多对多语音转换？
RQ2在不重新训练的前提下，如何加速对扩散模型的采样，同时保持质量？
RQ3同时对说话人嵌入和嘈杂目标梅尔谱进行条件化，是否能提升 VC 性能？
RQ4与标准求解器（EM、PF）相比，最大似然 SDE 求解器在不同扩散模型类型上表现如何？

主要发现

所提出的 Diff-VCTK 和 Diff-LibriTTS 模型在未见到未见对话的转换上，主观自然度和说话人相似度均高于若干基线。
使用 wodyn 条件（说话人嵌入加嘈杂目标梅尔谱）在感知相似性方面优于其他条件输入。
具有最多 6 步反向扩散的最大似然采样方案（ML-N、ML-30）达成具备竞争力的 MOS，相较于高步数方法的降幅很小（自然度约下降 0.2，相似度约下降 0.1）。
在 LibriTTS 上，Diff-LibriTTS-ML-30 在 whole-test 集上自然度约为 MOS 4.0、相似度约为 3.39，超越了自然度的 BNE-PPG-VC 基线，接近其相似度。
提出的 ML 采样方案显著提升采样效率，在 6 步时 GPU 的实时因子约为 0.1（相比 30 步时约 0.5）。
ML 采样器可泛化到其他扩散模型类型和任务（如 CIFAR-10 图像生成），并能带来改进的基于似然的采样。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。