Skip to main content
QUICK REVIEW

[论文解读] Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis

Yuxuan Wang, Daisy Stanton|arXiv (Cornell University)|Mar 23, 2018
Speech Recognition and Synthesis参考文献 21被引用 474
一句话总结

GSTs(Global Style Tokens)是一个通过 Tacotron 训练的可学习嵌入库,捕捉多样的语音风格且无需标签,使在 TTS 中实现风格控制和迁移成为可能,包括对嘈杂的无标签数据的鲁棒性。

ABSTRACT

In this work, we propose "global style tokens" (GSTs), a bank of embeddings that are jointly trained within Tacotron, a state-of-the-art end-to-end speech synthesis system. The embeddings are trained with no explicit labels, yet learn to model a large range of acoustic expressiveness. GSTs lead to a rich set of significant results. The soft interpretable "labels" they generate can be used to control synthesis in novel ways, such as varying speed and speaking style - independently of the text content. They can also be used for style transfer, replicating the speaking style of a single audio clip across an entire long-form text corpus. When trained on noisy, unlabeled found data, GSTs learn to factorize noise and speaker identity, providing a path towards highly scalable but robust speech synthesis.

研究动机与目标

  • 在端到端 TTS 中激发对表达性语音韵律的建模与控制。
  • 引入 Global Style Tokens 作为一种无标签机制,用于表示和控制说话风格。
  • 展示在基于 Tacotron 的 TTS 中对风格的控制、迁移,以及对嘈杂无标签数据的鲁棒性。
  • 展示 GSTs 产生可解释的风格嵌入,可用于风格形变和迁移。

提出的方法

  • 将参考编码器与一组风格标记和注意力模块集成到 Tacotron 中,以产生风格嵌入。
  • 仅使用重建损失,且不使用显式韵律标签,将 GSTs 与 Tacotron 模型共同训练。
  • 用 GSTs 的加权和来条件化 Tacotron 的文本编码器,以在每个时间步影响韵律。
  • 在推断时实现控制:(i) 基于特定标记进行条件化,(ii) 基于音频参考进行风格迁移的条件化,或 (iii) 仅使用标记而无参考。
  • 使用多头注意力来计算标记权重,并研究标记的缩放、采样与形态对风格控制的影响。

实验结果

研究问题

  • RQ1GSTs 是否能在没有显式韵律标签的情况下学习多样且可解释的说话风格?
  • RQ2GSTs 是否在端到端 TTS 中实现有效的风格控制与风格迁移?
  • RQ3GSTs 是否对嘈杂无标签数据具有鲁棒性并且能够区分噪音与说话人身份?
  • RQ4在自然度和清晰度方面,GSTs 与基线 Tacotron 和参考嵌入方法相比如何?
  • RQ5GSTs 是否支持非并行风格迁移和跨领域风格适应(如语言转移)?

主要发现

  • GSTs 产生的可解释风格嵌入与跨标记的韵律属性(如 F0 与能量)相关。
  • 单个标记可以编码多种属性(如说话速率、情绪),且其效果随标记缩放呈可预测的变化。
  • GSTs 能实现有效的非并行风格迁移,在有声书风格语音的主观评估中优于 Tacotron 基线。
  • 在嘈杂的发现数据上训练的 GSTs 将噪声与说话人因素分离为不同的标记,在令牌数量充足时,在各噪声水平下都能实现高 MOS(约4.0)的鲁棒合成。
  • GST 嵌入捕获用于噪声和说话人身份的判别信息,在噪声分类上达到高准确度(99.2%),在 TED 数据上使用 i-vectors 的说话人识别分类也具有竞争力。
  • 通过 GSTs 的风格转移在不同参考长度和标记数量下仍然鲁棒,听众在并排测试中更偏好 GST 输出胜过基线。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。