QUICK REVIEW

[论文解读] Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis

Yuxuan Wang, Daisy Stanton|arXiv (Cornell University)|Mar 23, 2018

Speech Recognition and Synthesis参考文献 21被引用 474

一句话总结

GSTs（Global Style Tokens）是一个通过 Tacotron 训练的可学习嵌入库，捕捉多样的语音风格且无需标签，使在 TTS 中实现风格控制和迁移成为可能，包括对嘈杂的无标签数据的鲁棒性。

ABSTRACT

In this work, we propose "global style tokens" (GSTs), a bank of embeddings that are jointly trained within Tacotron, a state-of-the-art end-to-end speech synthesis system. The embeddings are trained with no explicit labels, yet learn to model a large range of acoustic expressiveness. GSTs lead to a rich set of significant results. The soft interpretable "labels" they generate can be used to control synthesis in novel ways, such as varying speed and speaking style - independently of the text content. They can also be used for style transfer, replicating the speaking style of a single audio clip across an entire long-form text corpus. When trained on noisy, unlabeled found data, GSTs learn to factorize noise and speaker identity, providing a path towards highly scalable but robust speech synthesis.

研究动机与目标

在端到端 TTS 中激发对表达性语音韵律的建模与控制。
引入 Global Style Tokens 作为一种无标签机制，用于表示和控制说话风格。
展示在基于 Tacotron 的 TTS 中对风格的控制、迁移，以及对嘈杂无标签数据的鲁棒性。
展示 GSTs 产生可解释的风格嵌入，可用于风格形变和迁移。

提出的方法

将参考编码器与一组风格标记和注意力模块集成到 Tacotron 中，以产生风格嵌入。
仅使用重建损失，且不使用显式韵律标签，将 GSTs 与 Tacotron 模型共同训练。
用 GSTs 的加权和来条件化 Tacotron 的文本编码器，以在每个时间步影响韵律。
在推断时实现控制：(i) 基于特定标记进行条件化，(ii) 基于音频参考进行风格迁移的条件化，或 (iii) 仅使用标记而无参考。
使用多头注意力来计算标记权重，并研究标记的缩放、采样与形态对风格控制的影响。

实验结果

研究问题

RQ1GSTs 是否能在没有显式韵律标签的情况下学习多样且可解释的说话风格？
RQ2GSTs 是否在端到端 TTS 中实现有效的风格控制与风格迁移？
RQ3GSTs 是否对嘈杂无标签数据具有鲁棒性并且能够区分噪音与说话人身份？
RQ4在自然度和清晰度方面，GSTs 与基线 Tacotron 和参考嵌入方法相比如何？
RQ5GSTs 是否支持非并行风格迁移和跨领域风格适应（如语言转移）？

主要发现

GSTs 产生的可解释风格嵌入与跨标记的韵律属性（如 F0 与能量）相关。
单个标记可以编码多种属性（如说话速率、情绪），且其效果随标记缩放呈可预测的变化。
GSTs 能实现有效的非并行风格迁移，在有声书风格语音的主观评估中优于 Tacotron 基线。
在嘈杂的发现数据上训练的 GSTs 将噪声与说话人因素分离为不同的标记，在令牌数量充足时，在各噪声水平下都能实现高 MOS（约4.0）的鲁棒合成。
GST 嵌入捕获用于噪声和说话人身份的判别信息，在噪声分类上达到高准确度（99.2%），在 TED 数据上使用 i-vectors 的说话人识别分类也具有竞争力。
通过 GSTs 的风格转移在不同参考长度和标记数量下仍然鲁棒，听众在并排测试中更偏好 GST 输出胜过基线。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。