QUICK REVIEW

[论文解读] Flowtron: an Autoregressive Flow-based Generative Network for Text-to-Speech Synthesis

Rafael Valle, Kevin J. Shih|arXiv (Cornell University)|May 12, 2020

Speech Recognition and Synthesis参考文献 26被引用 81

一句话总结

Flowtron 提供一个基于自回归流的 TTS 模型，具可控的语音变化和风格迁移，达到与最先进模型相当的 MOS，并实现潜在空间操作以获得富表达力的语音。

ABSTRACT

In this paper we propose Flowtron: an autoregressive flow-based generative network for text-to-speech synthesis with control over speech variation and style transfer. Flowtron borrows insights from IAF and revamps Tacotron in order to provide high-quality and expressive mel-spectrogram synthesis. Flowtron is optimized by maximizing the likelihood of the training data, which makes training simple and stable. Flowtron learns an invertible mapping of data to a latent space that can be manipulated to control many aspects of speech synthesis (pitch, tone, speech rate, cadence, accent). Our mean opinion scores (MOS) show that Flowtron matches state-of-the-art TTS models in terms of speech quality. In addition, we provide results on control of speech variation, interpolation between samples and style transfer between speakers seen and unseen during training. Code and pre-trained models will be made publicly available at https://github.com/NVIDIA/flowtron

研究动机与目标

在仅以文本转语音之外，凸显对可控的非文本信息（韵律、风格）的需求。
开发一个生成模型，利用正则化流学习梅尔谱图与潜在 z 空间之间的可逆映射。
通过潜在空间采样以及文本和说话人信息的条件化，控制语音特征（音高、语调、节奏、口音）。
通过最大化似然优化实现稳定训练，不需要额外的 Prenet/Postnet 或复合损失。
展示具有变化控制、插值和风格迁移的富表达语音合成，适用于已见和未见说话人。

提出的方法

采用自回归流模型，其中梅尔谱帧通过 p(x) = product p(x_t|x_1:t-1) 在文本和说话人嵌入的条件下生成。
使用可逆仿射耦合层将潜在 z（来自高斯分布或高斯混合分布）映射到梅尔谱，并在似然训练中加入对数行列式项。
替换 Tacotron 组件（Prenet/Postnet），采用类似 Tacotron 的文本编码器，使用实例归一化和基于内容的注意力。
用高斯分布或高斯混合分布参数化 z 空间（可选可学习），实现采样与在先验证据的条件下进行后验条件化，以实现风格控制。
通过最大化数据似然进行训练；推断时从高斯或高斯混合取样 z，并对流进行反演以生成梅尔谱，可选地使用基于先验样本的后验条件化。

实验结果

研究问题

RQ1基于正则化流的 TTS 是否能够在提供可控变异性的同时达到与最先进的语音质量相匹配的水平？
RQ2潜在空间的操作如何实现对韵律、节奏和风格在 TTS 输出中的控制？
RQ3Flowtron 是否能够在没有表达数据标签的情况下，在已见/未见说话人之间进行插值和风格迁移？

主要发现

来源	流	平均意见分数（MOS）
Real	-	4.274 ± 0.1340
Flowtron	3	3.665 ± 0.1634
Tacotron 2	-	3.521 ± 0.1721

Flowtron 的 MOS 与最先进的 TTS 模型相当，在梅尔谱合成方面缩小了与 Tacotron 2 的质量差距。
从高斯分布中采样 z，方差（sigma^2）不同可控语音变异和时长，产生更具表现力的输出且不牺牲质量。
Flowtron 支持在潜在空间中进行插值，以混合说话人特征和语音风格，包括已见说话人与未见数据之间的情况。
基于先验证据的后验采样实现对已见与未见说话人的风格迁移与表达性调整。
高斯混合 Flowtron 变体揭示了与说话人性别和风格属性相关的解耦分量，实现维度级别的控制。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。