QUICK REVIEW

[论文解读] Multi-Speaker End-to-End Speech Synthesis

Jihyun Park, Kexin Zhao|arXiv (Cornell University)|Jul 9, 2019

Speech Recognition and Synthesis参考文献 21被引用 25

一句话总结

本文提出多说话人ClariNet，一种端到端的文本到波形语音合成模型，通过在所有网络组件中注入共享的可训练说话人嵌入作为偏置，生成高保真度、说话人特异的语音。该模型通过端到端联合优化所有组件，在自然度和说话人可区分性方面超越了最先进系统，实现了接近人类水平的说话人相似度，并在说话人验证任务中达到低EER。

ABSTRACT

In this work, we extend ClariNet (Ping et al., 2019), a fully end-to-end speech synthesis model (i.e., text-to-wave), to generate high-fidelity speech from multiple speakers. To model the unique characteristic of different voices, low dimensional trainable speaker embeddings are shared across each component of ClariNet and trained together with the rest of the model. We demonstrate that the multi-speaker ClariNet outperforms state-of-the-art systems in terms of naturalness, because the whole model is jointly optimized in an end-to-end manner.

研究动机与目标

将单说话人ClariNet模型扩展为支持多说话人的端到端方式。
通过联合优化所有组件（包括说话人建模）而非训练独立模块，提升语音合成质量。
证明在全网络中注入的说话人嵌入可有效建模独特的语音特征，而无需单独的说话人自适应。
验证模型生成的语音具有高自然度和说话人特异的身份特征，与真实人类语音相当。

提出的方法

引入可训练的、低维的说话人嵌入，共享于ClariNet的所有组件中，包括编码器、解码器、桥接网络和声码器。
将说话人嵌入作为加性偏置注入编码器、解码器、桥接网络和WaveNet声码器的卷积模块中，实现说话人特异语音的条件生成。
采用高斯自回归WaveNet作为声码器，以桥接网络的隐藏状态为条件，实现从文本到波形的直接端到端生成。
使用非因果卷积桥接网络，将编码器的信息压缩并传递至声码器，保留时间上下文信息。
从原始文本到原始波形端到端训练整个模型，无需单独的声码器或流水线组件。
在不显式监督性别或地区的情况下应用说话人嵌入，使模型能隐式学习判别性说话人表征。

实验结果

研究问题

RQ1端到端的文本到波形模型是否能有效生成多说话人的高保真语音，而无需单独的说话人自适应模块？
RQ2当共享的说话人嵌入被注入全网络组件时，其对多样化语音特征的建模能力如何？
RQ3与具有独立文本到频谱图和声码器阶段的系统相比，整个模型的联合优化是否能提升语音自然度？
RQ4通过说话人分类和验证任务衡量，所学习的说话人嵌入在多大程度上保留了说话人身份？
RQ5该模型能否生成可区分且在身份相似度上可与真实人类语音媲美的说话人特异语音？

主要发现

多说话人ClariNet模型在语音合成的自然度方面达到最先进水平，尽管声码器层数更少，但仍优于现有系统。
在VCTK数据集上的说话人分类准确率表明，生成样本的可区分性与真实录音相当，性能与真实样本和基线模型匹配。
说话人验证的等错误率（EER）与真实VCTK录音相当，EER值分别为1.8%（1次注册）和1.2%（5次注册），表明说话人身份保真度极高。
在二维空间中可视化说话人嵌入，可清晰看到按性别和区域（如英国与北美）聚类，表明模型学习到了有意义且解耦的说话人表征。
该模型无需独立声码器即可生成高质量、说话人特异的语音，实现了从文本到原始波形的端到端训练与推理。
即使未对性别或地区来源进行显式监督，说话人嵌入的潜在空间仍能捕捉到判别性说话人特征。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。