Skip to main content
QUICK REVIEW

[论文解读] CHiVE: Varying Prosody in Speech Synthesis with a Linguistically Driven Dynamic Hierarchical Conditional Variational Network

Vincent Wan, Chun-an Chan|arXiv (Cornell University)|May 17, 2019
Speech Recognition and Synthesis参考文献 29被引用 51
一句话总结

CHiVE 引入一个语言驱动的动态层级条件变分自编码器,以生成多样化的韵律特征并实现跨句子的韵律转移,相较非层级基线提高自然性。

ABSTRACT

The prosodic aspects of speech signals produced by current text-to-speech systems are typically averaged over training material, and as such lack the variety and liveliness found in natural speech. To avoid monotony and averaged prosody contours, it is desirable to have a way of modeling the variation in the prosodic aspects of speech, so audio signals can be synthesized in multiple ways for a given text. We present a new, hierarchically structured conditional variational autoencoder to generate prosodic features (fundamental frequency, energy and duration) suitable for use with a vocoder or a generative model like WaveNet. At inference time, an embedding representing the prosody of a sentence may be sampled from the variational layer to allow for prosodic variation. To efficiently capture the hierarchical nature of the linguistic input (words, syllables and phones), both the encoder and decoder parts of the auto-encoder are hierarchical, in line with the linguistic structure, with layers being clocked dynamically at the respective rates. We show in our experiments that our dynamic hierarchical network outperforms a non-hierarchical state-of-the-art baseline, and, additionally, that prosody transfer across sentences is possible by employing the prosody embedding of one sentence to generate the speech signal of another.

研究动机与目标

  • 激励对每个话语的韵律变化建模,以避免在TTS中平均化。
  • 提出一个与语言结构(单词、音节、音素)对齐的动态齿轮式分层VAE。
  • 学习一个句子级的韵律嵌入,以捕捉并采样韵律变化。
  • 使能从参考句子向不同文本内容转移韵律。
  • 证明分层结构比扁平基线产生更自然、富有表现力的韵律。

提出的方法

  • 提出 CHiVE,一个带编码器、变分层和解码器的时钟工作式分层条件变分自编码器。
  • 在编码器和解码器中在帧/音素/音节层使用分层RNNs,以反映语言结构。
  • 插入一个输出句子韵律嵌入的均值和方差的变分层,来自高斯采样。
  • 将解码器条件化为语言特征加上采样的句子韵律嵌入,以预测时长、F0/c0 和能量相关特征。
  • 使用对时长和F0/c0的L2损失,以及变分层的KL散度进行训练。
  • 推理时,从先验采样,或编码一个句子,并在可选地将韵律转移到另一个句子时对其语言特征进行条件化。

实验结果

研究问题

  • RQ1动态分层VAE 是否能够捕捉对 TTS 有意义的每句韵律变化?
  • RQ2以语言驱动的齿轮状层级是否比非层级基线在韵律建模上更优?
  • RQ3是否可以使用 CHiVE 潜在空间将韵律从一个句子转移到另一个句子?
  • RQ4嵌入类型(零嵌入、编码嵌入、随机嵌入)对韵律质量和自然度有何影响?

主要发现

  • CHiVE 的动态分层模型在 AB 并排评测中显著优于非层级基线(基线偏好 292,CHiVE 偏好 438;p = 3.91e-8)。
  • MOS 测试显示 CHiVE 相较基线具有更高的自然度,分数:Baseline 4.01±0.11, CHiVE zero embedding 4.07±0.10, CHiVE encoded 4.25±0.10, real speech 4.67±0.07。
  • 在保留数据上评估时,使用编码器均值嵌入使对数 F0 的 RMSE 相较基线下降 21%。
  • 通过让解码器对另一个句子的韵律嵌入进行条件化来演示韵律转移,产生对数 F0 等轮廓的转移样变。
  • 零嵌入得到的是合理但不如编码嵌入表达力丰富,而随机嵌入往往产生更丰富但不太精确的 F0 曲线。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。