Skip to main content
QUICK REVIEW

[论文解读] FastPitch: Parallel Text-to-speech with Pitch Prediction

Adrian Łańcucki|arXiv (Cornell University)|Jun 11, 2020
Speech Recognition and Synthesis参考文献 26被引用 75
一句话总结

FastPitch 是一种完全并行的文本到语音模型,通过在推理过程中显式预测并依赖基频(F0)轮廓,提升了语音质量和表现力。通过学习生成与音高对齐的梅尔频谱图,其实时因子达到 912×,在不增加架构复杂度的情况下实现了最先进水平的语音质量,支持交互式音高编辑,并在音高调制过程中保持说话人身份特征。

ABSTRACT

We present FastPitch, a fully-parallel text-to-speech model based on FastSpeech, conditioned on fundamental frequency contours. The model predicts pitch contours during inference. By altering these predictions, the generated speech can be more expressive, better match the semantic of the utterance, and in the end more engaging to the listener. Uniformly increasing or decreasing pitch with FastPitch generates speech that resembles the voluntary modulation of voice. Conditioning on frequency contours improves the overall quality of synthesized speech, making it comparable to state-of-the-art. It does not introduce an overhead, and FastPitch retains the favorable, fully-parallel Transformer architecture, with over 900x real-time factor for mel-spectrogram synthesis of a typical utterance.

研究动机与目标

  • 通过引入显式的音高预测,提升前馈式文本到语音模型的质量和表现力。
  • 通过基于 F0 轮廓的条件建模,解决因语言上下文不足导致的并行 TTS 模型发音不一致问题。
  • 在推理过程中实现交互式音高编辑,同时保持说话人身份和自然语调。
  • 在不引入推理延迟或架构复杂度的前提下,实现与自回归模型相当的最先进语音合成质量。

提出的方法

  • 在 FastSpeech 架构基础上,增加一个音高预测头,为每个输入词元生成一个 F0 值。
  • 使用基于 1D 卷积神经网络的音高预测器和时长预测器,从输入嵌入中预测语调特征。
  • 通过将预测的 F0 值投影到隐藏维度,并将其加到输入表示中,实现音高嵌入。
  • 利用预测的时长对音高嵌入的隐藏状态进行离散上采样,以与输出梅尔频谱图帧对齐。
  • 通过均方误差联合优化多任务损失,包括梅尔频谱图重建、音高预测和时长预测。
  • 利用预训练的 Tacotron 2 模型提取时长对齐,并使用自相关方法进行 F0 估计以获得真实标签。

实验结果

研究问题

  • RQ1显式建模基频轮廓是否能提升完全并行文本到语音模型的质量和一致性?
  • RQ2基于预测 F0 的条件建模是否能减少知识蒸馏的需求,并改善前馈式 TTS 的训练收敛性?
  • RQ3在推理过程中,音高可调节的程度如何,才能生成表现力强、自然的语音变化,同时保持说话人身份特征?
  • RQ4音高条件建模对并行 TTS 系统的实时性能和推理效率有何影响?

主要发现

  • 在 NVIDIA A100 GPU 上,FastPitch 的梅尔频谱图合成实时因子达到 912×,实现超快推理。
  • 使用 WaveGlow vocoder 时,完整音频合成的实时因子为 63×,适用于实时应用。
  • 在 LJSpeech 开发集上,模型的平均意见得分(MOS)达到 4.071 ± 0.164,优于多说话人 Tacotron 2(3.707)和 Flowtron(3.882)。
  • 音高条件建模显著改善了训练收敛性,并消除了对知识蒸馏的需求,简化了训练流程。
  • 将预测的 F0 均匀偏移 ±50 Hz 可生成自然的音高变化,保持说话人身份特征,并模拟声带调制效果。
  • 使用不同 Tacotron 2 变体生成的不同时长对齐进行训练,模型仍能保持相近的语音质量,表明对对齐差异具有鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。