QUICK REVIEW

[论文解读] Non-Autoregressive Neural Text-to-Speech

Kainan Peng, Wei Ping|arXiv (Cornell University)|May 21, 2019

Speech Recognition and Synthesis被引用 26

一句话总结

该论文提出ParaNet，一种非自回归、全卷积的序列到序列模型，可在单次前向传播中将文本转换为梅尔频谱图，与自回归模型Deep Voice 3相比，合成速度提升46.7倍，同时保持合理的语音质量。通过从自回归教师模型知识蒸馏得到的迭代式、逐层注意力优化，提升了对齐稳定性。

ABSTRACT

In this work, we propose ParaNet, a non-autoregressive seq2seq model that converts text to spectrogram. It is fully convolutional and brings 46.7 times speed-up over the lightweight Deep Voice 3 at synthesis, while obtaining reasonably good speech quality. ParaNet also produces stable alignment between text and speech on the challenging test sentences by iteratively improving the attention in a layer-by-layer manner. Furthermore, we build the parallel text-to-speech system and test various parallel neural vocoders, which can synthesize speech from text through a single feed-forward pass. We also explore a novel VAE-based approach to train the inverse autoregressive flow (IAF) based parallel vocoder from scratch, which avoids the need for distillation from a separately trained WaveNet as previous work.

研究动机与目标

开发一种非自回归文本到语音模型，以消除自回归生成带来的延迟瓶颈。
解决自回归TTS系统在推理过程中常见的注意力错位问题，该问题源于教师强制训练与自回归解码之间的差异。
通过结合非自回归文本到频谱图模型与并行神经声码器，构建完全并行的TTS流水线。
探索从零开始使用基于VAE的方法训练逆自回归流（IAF）声码器，避免从预训练WaveNet进行蒸馏。

提出的方法

提出ParaNet，一种非自回归、全卷积的编码器-解码器架构，可在单次前向传播中从文本生成梅尔频谱图。
利用来自自回归教师模型（如Deep Voice 3）的知识蒸馏初始化注意力分布，实现在推理过程中的稳定对齐。
引入逐层细化机制，其中每个解码器层迭代改进注意力对齐，从而在不使用自回归递归的情况下减少错误。
将ParaNet与并行神经声码器（如WaveGlow）以及一种基于WaveVAE的新型IAF声码器端到端联合训练。
采用VAE框架训练IAF声码器，无需蒸馏，从而实现TTS流水线的完全端到端训练。
在自注意力模块中应用位置编码，以提升非自回归设置下的序列建模与对齐学习能力。

实验结果

研究问题

RQ1非自回归序列到序列模型能否在消除自回归推理瓶颈的同时实现高质量语音合成？
RQ2在非自回归模型中，通过迭代式、逐层注意力细化是否能减少相比自回归模型（无论是否使用掩码）的注意力错误？
RQ3能否从零开始训练并行神经声码器而无需从WaveNet蒸馏，其在质量与鲁棒性方面表现如何？
RQ4知识蒸馏与位置编码对非自回归TTS模型性能与稳定性有何影响？
RQ5所提出的ParaNet与自回归模型（如Deep Voice 3和FastSpeech）相比，其合成速度如何？

主要发现

ParaNet在1080 Ti GPU上实现254.6倍实时推理速度提升，相比自回归模型Deep Voice 3提升46.7倍，单个6.11秒语音样本的平均推理延迟为0.024秒。
在具有挑战性的100句测试集上，ParaNet将注意力错误从37例减少至12例，即使未使用注意力掩码，也因消除了训练-推理差异而表现更优。
在使用注意力掩码的情况下，ParaNet仍优于Deep Voice 3，仅产生6例注意力错误，而后者为8例，表明其具备更强的鲁棒性与稳定性。
消融实验证实，知识蒸馏与位置编码均至关重要：移除任一方法均会导致语音无法理解或注意力图模糊。
增加ParaNet中解码器层数可减少注意力错误，17层配置在所有消融实验中表现最佳。
基于WaveVAE的IAF声码器实现了无需蒸馏的端到端训练，性能具有竞争力，但与非自回归前端搭配时，其整体鲁棒性通常仍不及WaveNet。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。