[论文解读] Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis
GSTs(Global Style Tokens)是一个通过 Tacotron 训练的可学习嵌入库,捕捉多样的语音风格且无需标签,使在 TTS 中实现风格控制和迁移成为可能,包括对嘈杂的无标签数据的鲁棒性。
In this work, we propose "global style tokens" (GSTs), a bank of embeddings that are jointly trained within Tacotron, a state-of-the-art end-to-end speech synthesis system. The embeddings are trained with no explicit labels, yet learn to model a large range of acoustic expressiveness. GSTs lead to a rich set of significant results. The soft interpretable "labels" they generate can be used to control synthesis in novel ways, such as varying speed and speaking style - independently of the text content. They can also be used for style transfer, replicating the speaking style of a single audio clip across an entire long-form text corpus. When trained on noisy, unlabeled found data, GSTs learn to factorize noise and speaker identity, providing a path towards highly scalable but robust speech synthesis.
研究动机与目标
- 在端到端 TTS 中激发对表达性语音韵律的建模与控制。
- 引入 Global Style Tokens 作为一种无标签机制,用于表示和控制说话风格。
- 展示在基于 Tacotron 的 TTS 中对风格的控制、迁移,以及对嘈杂无标签数据的鲁棒性。
- 展示 GSTs 产生可解释的风格嵌入,可用于风格形变和迁移。
提出的方法
- 将参考编码器与一组风格标记和注意力模块集成到 Tacotron 中,以产生风格嵌入。
- 仅使用重建损失,且不使用显式韵律标签,将 GSTs 与 Tacotron 模型共同训练。
- 用 GSTs 的加权和来条件化 Tacotron 的文本编码器,以在每个时间步影响韵律。
- 在推断时实现控制:(i) 基于特定标记进行条件化,(ii) 基于音频参考进行风格迁移的条件化,或 (iii) 仅使用标记而无参考。
- 使用多头注意力来计算标记权重,并研究标记的缩放、采样与形态对风格控制的影响。
实验结果
研究问题
- RQ1GSTs 是否能在没有显式韵律标签的情况下学习多样且可解释的说话风格?
- RQ2GSTs 是否在端到端 TTS 中实现有效的风格控制与风格迁移?
- RQ3GSTs 是否对嘈杂无标签数据具有鲁棒性并且能够区分噪音与说话人身份?
- RQ4在自然度和清晰度方面,GSTs 与基线 Tacotron 和参考嵌入方法相比如何?
- RQ5GSTs 是否支持非并行风格迁移和跨领域风格适应(如语言转移)?
主要发现
- GSTs 产生的可解释风格嵌入与跨标记的韵律属性(如 F0 与能量)相关。
- 单个标记可以编码多种属性(如说话速率、情绪),且其效果随标记缩放呈可预测的变化。
- GSTs 能实现有效的非并行风格迁移,在有声书风格语音的主观评估中优于 Tacotron 基线。
- 在嘈杂的发现数据上训练的 GSTs 将噪声与说话人因素分离为不同的标记,在令牌数量充足时,在各噪声水平下都能实现高 MOS(约4.0)的鲁棒合成。
- GST 嵌入捕获用于噪声和说话人身份的判别信息,在噪声分类上达到高准确度(99.2%),在 TED 数据上使用 i-vectors 的说话人识别分类也具有竞争力。
- 通过 GSTs 的风格转移在不同参考长度和标记数量下仍然鲁棒,听众在并排测试中更偏好 GST 输出胜过基线。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。