QUICK REVIEW

[论文解读] Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron

RJ Skerry-Ryan, Eric Battenberg|arXiv (Cornell University)|Mar 24, 2018

Speech Recognition and Synthesis参考文献 22被引用 219

一句话总结

本论文在 Tacotron 上增加一个学习的参考韵律编码器，以在 utterances 和 speakers 之间传递韵律，实现端到端的韵律控制与传递。它使用单一说话人和多说话人 Tacotron 模型进行评估，采用客观与主观指标。

ABSTRACT

We present an extension to the Tacotron speech synthesis architecture that learns a latent embedding space of prosody, derived from a reference acoustic representation containing the desired prosody. We show that conditioning Tacotron on this learned embedding space results in synthesized audio that matches the prosody of the reference signal with fine time detail even when the reference and synthesis speakers are different. Additionally, we show that a reference prosody embedding can be used to synthesize text that is different from that of the reference utterance. We define several quantitative and subjective metrics for evaluating prosody transfer, and report results with accompanying audio samples from single-speaker and 44-speaker Tacotron models on a prosody transfer task.

研究动机与目标

通过从声学信号学习潜在韵律表征来在没有明确注释的情况下建模韵律。
在 Tacotron 中加入参考编码器以捕捉韵律并实现句子与说话人之间的转移。
在单说话人和多说话人设置下用定量指标和人类评估来评估该方法。
研究韵律嵌入如何影响说话身份和韵律传输质量。

提出的方法

添加一个参考编码器，将参考的声学信号处理成一个固定长度的韵律嵌入（dP=128，tanh 激活）以对 Tacotron 进行条件化。
使用一个六层卷积参考编码器，后接 GRU 以获得固定长度的韵律嵌入。
通过级联，将文本表示、说话人嵌入和韵律嵌入共同作为条件来驱动 Tacotron 的解码器。
端到端地用 Tacotron 重构损失进行训练，不使用显式的韵律监督，以学习紧凑的韵律瓶颈。
可选地探索一个基于序列的（可变长度）韵律表示，配合额外的注意力头，尽管主要结果聚焦在固定长度嵌入上。

实验结果

研究问题

RQ1能否从参考音频提取的学习韵律嵌入在 Tacotron 生成的语音中再现并传递韵律？
RQ2将 Tacotron 条件化到学习的韵律空间是否能够实现跨说话人韵律传输，同时保持可懂度和说话人身份？
RQ3韵律嵌入的大小和激活对传输质量以及从参考到输出的信息流有何影响？

主要发现

相较于没有参考编码器的基线，在单说话人与多说话人模型中，韵律传输提高了与参考韵律的一致性。
在测试条件下，使用参考编码器的客观指标（MCD 和 FFE）比基线显著更低。
以锚定的主观韵律区分度显示，当使用 tanh-128 瓶颈时，与参考韵律的相似性高于基线，且在说话人配置中一致。
当参考说话人不同于目标说话人时，韵律可以传递，包括未见说话人，且在音高和时序保真方面有显著影响。
通常增加瓶颈大小可以改善韵律再现（MCD、FFE），而软最大瓶颈不及基于 tanh 的瓶颈。
存在韵律与说话身份之间的纠缠证据，参考韵律有时主导感知的说话人特征。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。