QUICK REVIEW

[论文解读] Uncovering Latent Style Factors for Expressive Speech Synthesis

Yuxuan Wang, RJ Skerry-Ryan|arXiv (Cornell University)|Nov 1, 2017

Speech Recognition and Synthesis参考文献 13被引用 44

一句话总结

本文提出风格标记（style tokens）——一种在端到端TTS模型中学习的潜在变量——能够从原始语音数据中无监督地发现语调风格因子。通过在Tacotron中引入风格注意力机制，该模型能够在无需任何标注数据的情况下，学习分离并控制全局语调变化（如音高、节奏、类似情感的提示），从而通过学习到的风格嵌入实现一致且可控的富有表现力的语音合成。

ABSTRACT

Prosodic modeling is a core problem in speech synthesis. The key challenge is producing desirable prosody from textual input containing only phonetic information. In this preliminary study, we introduce the concept of "style tokens" in Tacotron, a recently proposed end-to-end neural speech synthesis model. Using style tokens, we aim to extract independent prosodic styles from training data. We show that without annotation data or an explicit supervision signal, our approach can automatically learn a variety of prosodic variations in a purely data-driven way. Importantly, each style token corresponds to a fixed style factor regardless of the given text sequence. As a result, we can control the prosodic style of synthetic speech in a somewhat predictable and globally consistent way.

研究动机与目标

解决端到端文本到语音系统中仅凭文本无法捕捉语调变化的挑战。
从原始语音数据中发现解耦且可解释的语调风格因子，而无需人工标注。
通过条件化于学习到的风格标记，在推理阶段实现显式的全局语调控制。
证明风格标记可通过序列到序列框架中的重建损失实现纯无监督学习。
表明风格标记对应于与输入文本无关的独立且一致的语调风格。

提出的方法

引入一个包含K个可学习风格标记的风格编码器，这些标记在所有输入序列间共享，作为潜在风格表征。
通过独立的风格注意力机制增强Tacotron架构，该机制并行于文本注意力机制，关注风格编码器的输出。
通过可学习控制器（单层MLP，输出为Sigmoid）组合文本和风格上下文向量，以在每个解码步骤动态加权两者的贡献。
仅使用谱图输出的重建损失端到端训练整个模型，从而实现风格标记的无监督学习。
在推理阶段通过广播选定风格标记的嵌入到风格嵌入矩阵，或通过线性插值多个风格嵌入，实现语调控制。
可视化注意力混合权重，分析模型在合成过程中在内容（文本）与风格（标记）建模之间交替的行为。

实验结果

研究问题

RQ1能否在无显式监督或标注的情况下，从未标注的原始语音数据中发现潜在的语调风格因子？
RQ2学习到的风格标记是否对应于可解释且一致的语调变化，如音高范围、节奏或情感基调？
RQ3在推理阶段，风格标记能否以全局、与文本无关的方式控制语调？
RQ4注意力机制如何实现语调因子的解耦与灵活的风格组合？
RQ5模型是否如注意力权重动态所示，在内容与风格建模之间实现交替？

主要发现

该模型成功学习到10个不同的风格标记，其对应于可解释的语调风格，如高音、机械式或潦草的语音，音频演示与F0轨迹分析已证实此结论。
平滑后的F0轨迹表明，风格标记9产生一致的高音高，而标记8则导致平坦且低音高的输出，证实了风格特定的语调特征。
文本与风格注意力之间的混合权重与语音的音段边界在时间上对齐，表明模型在内容与风格处理之间交替。
风格标记与输入文本相互独立，表现为使用同一风格标记时，不同话语中均保持一致的语调模式。
该方法可通过风格嵌入广播或插值实现可控的语调合成，使用户能够生成具有所需表现力的语音。
该方法在标准评估集上达到约4.0的平均意见分，表明语音自然度高，同时在无额外监督下实现了表现力控制。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。