Skip to main content
QUICK REVIEW

[论文解读] DurIAN: Duration Informed Attention Network For Multimodal Synthesis

Chengzhu Yu, Heng Lu|arXiv (Cornell University)|Sep 4, 2019
Speech Recognition and Synthesis参考文献 31被引用 94
一句话总结

DurIAN 提出一种基于时长的信息化自回归文本到语音框架,它用基于时长的对齐替代端到端注意力,从而实现稳健的语音和同步的面部表情,并配备多带 WaveRNN 以加速推理。

ABSTRACT

In this paper, we present a generic and robust multimodal synthesis system that produces highly natural speech and facial expression simultaneously. The key component of this system is the Duration Informed Attention Network (DurIAN), an autoregressive model in which the alignments between the input text and the output acoustic features are inferred from a duration model. This is different from the end-to-end attention mechanism used, and accounts for various unavoidable artifacts, in existing end-to-end speech synthesis systems such as Tacotron. Furthermore, DurIAN can be used to generate high quality facial expression which can be synchronized with generated speech with/without parallel speech and face data. To improve the efficiency of speech generation, we also propose a multi-band parallel generation strategy on top of the WaveRNN model. The proposed Multi-band WaveRNN effectively reduces the total computational complexity from 9.8 to 5.5 GFLOPS, and is able to generate audio that is 6 times faster than real time on a single CPU core. We show that DurIAN could generate highly natural speech that is on par with current state of the art end-to-end systems, while at the same time avoid word skipping/repeating errors in those systems. Finally, a simple yet effective approach for fine-grained control of expressiveness of speech and facial expression is introduced.

研究动机与目标

  • 推动鲁棒、自然的语音合成,避免在端到端注意力系统中常见的伪影。
  • 开发一个多模态合成框架,使用基于时长的对齐实现语音和面部表情的同步生成。
  • 通过跳过韵律边界编码和跳过编码器来提高对域外文本的鲁棒性。
  • 在语音和面部表情中实现细粒度的表达能力控制,而不依赖大量配对数据。

提出的方法

  • 用基于音素时长的时长信息对齐模型替代 Tacotron 风格系统中的端到端注意力。
  • 使用跳过编码器对音素序列及分层韵律边界进行编码,但在最终编码器输出中排除边界状态。
  • 使用由预测音素时长驱动的状态扩展机制,将编码器状态与声学帧对齐。
  • 使用一个以内容为基础且锚定于时长对齐编码器状态的 tanh 注意力的解码器,以及用于残差的后网。
  • 引入一个多模态合成方案,其中语音为梅尔谱图,面部表情为建模参数,通过时长模型或多任务学习实现同步。
  • 提出带有 8 位量化和带状子采样的多带 WaveRNN,以在不损失音质的前提下加速音频生成。

实验结果

研究问题

  • RQ1基于时长的对齐模型是否能提供与端到端注意力式 TTS 系统相当的鲁棒性和自然度?
  • RQ2韵律边界信息如何提升对域外文本的泛化能力,特别是在中文韵律方面?
  • RQ3在有监督标签下,通过操作学习得到的风格嵌入,是否能实现细粒度风格控制?
  • RQ4多带 WaveRNN 方法在不降低感知语音质量的前提下能否加速推理?
  • RQ5在不需要并行的语音-面部数据的前提下,使用基于时长的机制实现语音与面部表情同步,是否可行?

主要发现

  • DurIAN 在 MOS 测试中的自然度与 Tacotron-2 不相上下,同时避免了端到端注意力系统常见的词跳过/重复等伪影。
  • DurIAN 展示出比 Tacotron-2 更强的鲁棒性,在1000个未见话语上实现0%的单词跳过/重复错误,而基线为1–2%。
  • 带有 8 位量化的多带 WaveRNN 相较基线加速 2x–4x,在 CPU 上实现实时或更快的生成且不损失音质。
  • 通过缩放学习得到的风格嵌入即可实现细粒度的风格控制,影响音素时长和声学生成,从而实现富表达的语音。
  • 基于时长模型的同步实现了多模态合成(语音加面部表情),不需要并行的语音-面部数据,同时在有可用并行数据时仍然可用。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。