QUICK REVIEW

[论文解读] Voice Conversion from Non-parallel Corpora Using Variational Auto-encoder

Chin-Cheng Hsu, Hsin-Te Hwang|arXiv (Cornell University)|Oct 13, 2016

Speech Recognition and Synthesis参考文献 19被引用 23

一句话总结

该论文提出了一种基于变分自编码器（VAE）的谱转换框架，可使用非平行、未对齐的语音语料进行语音转换，无需帧级对齐或并行训练数据。该方法通过编码器学习与说话人无关的语音表示，并通过解码器重建目标说话人的谱特征，其在客观（MCD）和主观（MOS）评估中性能与依赖对齐的基线方法相当。

ABSTRACT

We propose a flexible framework for spectral conversion (SC) that facilitates training with unaligned corpora. Many SC frameworks require parallel corpora, phonetic alignments, or explicit frame-wise correspondence for learning conversion functions or for synthesizing a target spectrum with the aid of alignments. However, these requirements gravely limit the scope of practical applications of SC due to scarcity or even unavailability of parallel corpora. We propose an SC framework based on variational auto-encoder which enables us to exploit non-parallel corpora. The framework comprises an encoder that learns speaker-independent phonetic representations and a decoder that learns to reconstruct the designated speaker. It removes the requirement of parallel corpora or phonetic alignments to train a spectral conversion system. We report objective and subjective evaluations to validate our proposed method and compare it to SC methods that have access to aligned corpora.

研究动机与目标

开发一种无需并行语料或帧级对齐的谱转换框架。
仅使用源说话人和目标说话人的未对齐语音数据实现语音转换。
探究在基于VAE的自编码器设置中，是否能有效从说话人身份中解耦出与说话人无关的语音表示。
通过客观和主观指标验证该方法与依赖对齐的基线方法的性能对比。
探索将该框架扩展至多对多语音转换的可行性。

提出的方法

该框架采用共享编码器的VAE，将谱帧映射到共享潜在空间，实现语音内容与说话人身份的解耦。
解码器使用说话人特定的潜在码重建目标说话人的谱特征，实现受控的谱特征重建。
通过最大化数据对数似然的变分下界，在非并行数据上端到端训练模型。
将说话人身份作为解码器的独热向量输入，使系统能够从共享的语音表示生成特定说话人的输出。
该框架支持成对（VAE-pair）和多说话人（VAE-multi）两种配置，其中VAE-multi将12种说话人组合整合到单一模型中。
一种解耦训练变体（VAE-disj）分别对源说话人和目标说话人进行训练，以在更严格的训练数据约束下测试鲁棒性。

实验结果

研究问题

RQ1基于VAE的框架是否能在不依赖并行或对齐训练数据的情况下实现具有竞争力的谱转换性能？
RQ2在未对齐语料中，能多大程度上学习到解耦的与说话人无关的语音表示？
RQ3在客观和主观指标方面，该方法的性能与依赖对齐的基线方法相比如何？
RQ4该框架是否可扩展以支持未见过的说话人组合的多对多语音转换？
RQ5当在非并行数据上训练时，模型是否能保持高质量的语音和相似性？

主要发现

VAE-pair模型在测试集上的平均MCD为3.58，与使用对齐数据的基线ENMF-3000相当。
主观MOS语音质量评分为2.76（标准差0.44）（VAE-pair）和2.75（标准差0.50）（ENMF-3000），表明感知质量无显著下降。
在训练数据量仅为VAE-pair一半的非并行数据上训练的VAE-disj模型，性能几乎与VAE-pair相当，表明对数据约束具有鲁棒性。
VAE-multi模型在MCD性能上接近VAE-pair，同时将12种说话人组合整合到单一模型中，显示出多对多转换的潜力。
ABX测试显示VAE-pair与ENMF-3000在目标相似性方面无显著差异，证实了相似的说话人身份迁移效果。
结果表明，显式的帧级对齐并非高质量谱转换的必要条件，因为VAE框架通过解耦表示学习隐式学习到了所需的映射关系。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。