[论文解读] DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism
DiffSinger 使用扩散概率模型用于 SVS 以减少过度平滑并稳定训练,并引入一种浅层扩散机制从一个与简单梅尔谱解码器的交点处启动反向过程,从而提升质量和推理速度。
Singing voice synthesis (SVS) systems are built to synthesize high-quality and expressive singing voice, in which the acoustic model generates the acoustic features (e.g., mel-spectrogram) given a music score. Previous singing acoustic models adopt a simple loss (e.g., L1 and L2) or generative adversarial network (GAN) to reconstruct the acoustic features, while they suffer from over-smoothing and unstable training issues respectively, which hinder the naturalness of synthesized singing. In this work, we propose DiffSinger, an acoustic model for SVS based on the diffusion probabilistic model. DiffSinger is a parameterized Markov chain that iteratively converts the noise into mel-spectrogram conditioned on the music score. By implicitly optimizing variational bound, DiffSinger can be stably trained and generate realistic outputs. To further improve the voice quality and speed up inference, we introduce a shallow diffusion mechanism to make better use of the prior knowledge learned by the simple loss. Specifically, DiffSinger starts generation at a shallow step smaller than the total number of diffusion steps, according to the intersection of the diffusion trajectories of the ground-truth mel-spectrogram and the one predicted by a simple mel-spectrogram decoder. Besides, we propose boundary prediction methods to locate the intersection and determine the shallow step adaptively. The evaluations conducted on a Chinese singing dataset demonstrate that DiffSinger outperforms state-of-the-art SVS work. Extensional experiments also prove the generalization of our methods on text-to-speech task (DiffSpeech). Audio samples: https://diffsinger.github.io. Codes: https://github.com/MoonInTheRiver/DiffSinger. The old title of this work: "Diffsinger: Diffusion acoustic model for singing voice synthesis".
研究动机与目标
- 解决 SVS 声学模型中的过度平滑和不稳定训练。
- 提出通过 ELBO 训练且不使用对抗损失的扩散式 SVS 模型(DiffSinger)。
- 引入一种浅层扩散机制,以利用先验的简单损失知识。
- 开发一个边界预测网络,以自适应地确定浅层扩散的起始步(k)。
- 通过 DiffSpeech 在 TTS 上展示该方法的泛化能力。
提出的方法
- 将 SVS 模型化为从乐谱生成梅尔谱的条件扩散过程。
- 通过最小化变分下界(ELBO)及一个预测噪声的去噪器来训练扩散模型。
- 推理中,从浅层扩散步长 k 开始,使用辅助梅尔解码器生成 ʍM_k,然后进行 k 次去噪步骤。
- 引入边界预测器,以自适应确定 ground-truth M 与辅助 ˜M 的扩散轨迹的交点步长 k。
- 采用带歌词、长度调节器和音高分量的编码器,以将扩散过程条件化在乐谱上。
- 使用非因果的基于 WaveNet 的去噪器以及一个辅助的基于 FFT 的梅尔谱解码器来生成 ʍM。
- 提供面向英语 TTS 任务的 DiffSpeech 扩展适配。
实验结果
研究问题
- RQ1扩散模型是否可以在不使用对抗训练的情况下,从乐谱产生自然听起来的歌唱声线?
- RQ2浅层扩散起点是否会提升 SVS 的合成质量和推理速度?
- RQ3边界预测器是否能自适应地确定最优的浅层扩散步长 k?
- RQ4该方法是否能推广到 TTS(DiffSpeech)超越 SVS?
主要发现
| 方法 | MOS(均值) | 95% 置信区间 |
|---|---|---|
| GT | 4.30 ± 0.09 | 0.09 |
| GT (Mel + PWG) | 4.04 ± 0.11 | 0.11 |
| FFT-NPSS (WORLD) | 1.75 ± 0.17 | 0.17 |
| FFT-Singer (Mel + PWG) | 3.67 ± 0.11 | 0.11 |
| GAN-Singer (Mel + PWG) | 3.74 ± 0.12 | 0.12 |
| DiffSinger Naive (Mel + PWG) | 3.71 ± 0.10 | 0.10 |
| DiffSinger (Mel + PWG) | 3.85 ± 0.11 | 0.11 |
- DiffSinger 在一个中文歌唱数据集上超越最先进的 SVS 系统,达到比 GAN-Singer 和 FFT-Singer 更高的 MOS(分别为 3.85、3.74、3.67)。
- 纯扩散(无浅层扩散)得到 3.71 的 MOS,而采用浅层扩散的 DiffSinger 达到 3.85。
- 浅层扩散机制将推理加速 45.1%(RTF 0.191 vs. 0.348)。
- 边界预测器能有效选择 k;使用预测的 k 比使用固定或替代的 k 获得更好的 MOS。
- 在 LJSpeech 的扩展实验表明 DiffSpeech 在 MOS 上优于 FastSpeech 2 和 Glow-TTS,且相较于朴素扩散实现了 29.2% 的速度提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。