[论文解读] JDI-T: Jointly trained Duration Informed Transformer for Text-To-Speech without Explicit Alignment
JDI-T 提出了一种单阶段、时长感知的 Transformer 文本到语音模型,通过在联合训练过程中从自回归 Transformer 的注意力权重中实时提取音素时长,消除了对显式对齐或预训练时长提取器的需求。该方法在韩语数据集上实现了最先进的语音质量,在主观评估中优于自回归和非自回归基线模型。
We propose Jointly trained Duration Informed Transformer (JDI-T), a feed-forward Transformer with a duration predictor jointly trained without explicit alignments in order to generate an acoustic feature sequence from an input text. In this work, inspired by the recent success of the duration informed networks such as FastSpeech and DurIAN, we further simplify its sequential, two-stage training pipeline to a single-stage training. Specifically, we extract the phoneme duration from the autoregressive Transformer on the fly during the joint training instead of pretraining the autoregressive model and using it as a phoneme duration extractor. To our best knowledge, it is the first implementation to jointly train the feed-forward Transformer without relying on a pre-trained phoneme duration extractor in a single training pipeline. We evaluate the effectiveness of the proposed model on the publicly available Korean Single speaker Speech (KSS) dataset compared to the baseline text-to-speech (TTS) models trained by ESPnet-TTS.
研究动机与目标
- 简化传统上需要预训练对齐提取器的两阶段流程的时长感知 TTS 模型训练流程。
- 通过在联合训练期间利用自回归 Transformer 作为动态时长提取器,提升非自回归 TTS 的训练稳定性和对齐可靠性。
- 在不依赖显式注意力对齐或外部时长监督的情况下,实现高质量、鲁棒且快速的语音合成。
- 评估联合训练是否能够匹配或超越 Tacotron2 和 Transformer 等教师模型在非自回归 TTS 中的质量表现。
提出的方法
- 该模型在单个端到端流程中联合训练前馈 Transformer、时长预测器和自回归 Transformer。
- 在训练期间,实时从自回归 Transformer 的注意力权重中提取音素时长,取代了对预训练时长提取器的需求。
- 应用辅助损失以在训练初期稳定注意力机制,提高时长提取的可靠性。
- 采用前向注意力机制以强制单调对齐,减少基于注意力的时长估计中的不稳定性。
- 前馈 Transformer 使用长度调节器,根据预测的时长将音素序列与梅尔频谱图输出对齐。
- 模型使用 RAdam 优化器,在 4 块 V100 GPU 上进行 300k 步的学习率调度训练,推理仅使用前馈 Transformer 和时长预测器。
实验结果
研究问题
- RQ1非自回归 TTS 模型是否能在不依赖显式对齐监督或预训练时长提取器的情况下实现高质量语音合成?
- RQ2与两阶段训练相比,联合训练前馈 Transformer、时长预测器和自回归教师模型是否能提升训练稳定性和合成质量?
- RQ3在联合训练期间,能否通过从注意力权重中实时提取时长来替代预训练对齐模型在时长感知 TTS 中的应用?
- RQ4与 Tacotron2 和 Transformer 等自回归模型以及 FastSpeech 等非自回归模型相比,所提模型在主观质量上表现如何?
主要发现
- 在内部工作室质量数据集上,JDI-T 的平均意见分(MOS)达到 3.77,优于 FastSpeech(3.48),并匹配自回归 Transformer(3.55)的性能。
- 在 KSS 数据集上,JDI-T 的 MOS 达到 3.52,超过 FastSpeech(3.23),并接近自回归 Transformer(3.72)的性能。
- 与自回归模型相比,该模型表现出更强的鲁棒性,并具有更快的推理速度,后者在分布外脚本上表现出较高的合成错误率。
- 联合训练框架成功消除了对预训练时长提取器的需求,将训练流程简化为单阶段。
- 辅助损失和前向注意力机制显著提升了注意力稳定性,使得在训练初期即可从自回归模型中可靠地提取时长。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。