QUICK REVIEW

[论文解读] WaveFlow: A Compact Flow-based Model for Raw Audio

Wei Ping, Kainan Peng|arXiv (Cornell University)|Dec 3, 2019

Music and Audio Processing参考文献 47被引用 36

一句话总结

WaveFlow 提出一种紧凑的基于流的原始音频模型，通过最大似然训练，在保留高保真度的语音方面达到类似 WaveNet 的效果，但生成速度更快、占用资源更小。

ABSTRACT

In this work, we propose WaveFlow, a small-footprint generative flow for raw audio, which is directly trained with maximum likelihood. It handles the long-range structure of 1-D waveform with a dilated 2-D convolutional architecture, while modeling the local variations using expressive autoregressive functions. WaveFlow provides a unified view of likelihood-based models for 1-D data, including WaveNet and WaveGlow as special cases. It generates high-fidelity speech as WaveNet, while synthesizing several orders of magnitude faster as it only requires a few sequential steps to generate very long waveforms with hundreds of thousands of time-steps. Furthermore, it can significantly reduce the likelihood gap that has existed between autoregressive models and flow-based models for efficient synthesis. Finally, our small-footprint WaveFlow has only 5.91M parameters, which is 15$ imes$ smaller than WaveGlow. It can generate 22.05 kHz high-fidelity audio 42.6$ imes$ faster than real-time (at a rate of 939.3 kHz) on a V100 GPU without engineered inference kernels.

研究动机与目标

以紧凑的基于流的模型激发高效且高保真度的原始音频生成。
为一维波形数据架起基于似然的流模型与自回归模型之间的桥梁。
证明小型 WaveFlow 能在显著更快的合成速度下达到自回归性能。
表明 WaveFlow 相对于 WaveGlow 可减少参数数量，同时维持或提升保真度。

提出的方法

引入 WaveFlow，它将 1-D 波形挤压成 2-D 矩阵，并用具有表达力的自回归函数对局部变化进行建模。
使用扩张的 2-D 卷积结构实现流式映射中的条件位移和缩放。
定义一个三角雅可比矩阵，使在高度维度上能够并行计算似然和自回归合成。
直接使用最大似然进行训练，不使用辅助损失或密度蒸馏。
提供一个统一的视角，将 WaveNet 和 WaveGlow 视为基于流的模型的特殊情况。
尝试不同的高度 h 和置换策略，以在模型容量与推理并行性之间取得平衡。

实验结果

研究问题

RQ1紧凑的 2-D 扩张卷积流模型是否能够在原始音频上实现接近自回归 WaveNet 的似然度？
RQ2WaveFlow 如何将高度参数 h 调整以权衡生成速度与模型容量？
RQ3在堆叠多个 Flow 层时，置换策略对似然和保真度有何影响？
RQ4在参数、似然度和合成速度方面，WaveFlow 相较于 WaveGlow 和自回归 Flow 有何比较？
RQ5在基于 Flow 的声码器中，似然与感知语音质量相关的程度如何？

主要发现

Model	flows × layers	Res. channels	# Param	Test LLs
Gaussian WaveNet	1 × 30 = 30	128	4.57 M	5.059
Autoregressive flow	3 × 10 = 30	128	4.54 M	5.161
WaveGlow	12 × 8 = 96	64	17.59 M	4.804
WaveGlow	12 × 8 = 96	128	34.83 M	4.927
WaveGlow	6 × 8 = 48	256	47.22 M	4.922
WaveGlow	12 × 8 = 96	256	87.88 M	5.018
WaveGlow	12 × 8 = 96	512	268.29 M	5.026
WaveFlow (h=8)	8 × 8 = 64	64	5.91 M	4.935
WaveFlow (h=16)	8 × 8 = 64	64	5.91 M	4.954
WaveFlow (h=32)	8 × 8 = 64	64	5.91 M	5.002
WaveFlow (h=64)	8 × 8 = 64	64	5.91 M	5.023
WaveFlow (h=8)	6 × 8 = 48	96	9.58 M	4.946
WaveFlow (h=8)	8 × 8 = 64	96	12.78 M	4.977
WaveFlow (h=16)	8 × 8 = 64	96	12.78 M	5.007
WaveFlow (h=16)	6 × 8 = 48	128	16.69 M	4.990
WaveFlow (h=8)	8 × 8 = 64	128	22.25 M	5.009
WaveFlow (h=16)	8 × 8 = 64	128	22.25 M	5.028
WaveFlow (h=32)	8 × 8 = 64	128	22.25 M	5.055
WaveFlow (h=16)	6 × 8 = 48	256	64.64 M	5.064
WaveFlow (h=16)	8 × 8 = 64	256	86.18 M	5.101

中等规模的 WaveFlow 在似然度上与 WaveNet 相当，并在几个顺序步骤中生成数千个时间步的高保真语音。
WaveFlow 在类似参数规模下显著优于 WaveGlow 的似然度（例如，在相近规模下为 5.023 对 5.026）。
提高挤压高度 h 能提升似然度；具有更多流的更大模型在 LL 与 MOS 上表现更好，同时在达到某个点前也能实现更快的合成。
小型 WaveFlow（5.91M 参数）在 22.05 kHz 音频下以 42.60× 实时速度合成，在若干场景中在效率和保真度都优于 WaveGlow。
跨高度维度的置换策略（尤其是混合反向与二部排序）由于双向建模而显著提高似然度。
文本转语音实验表明 WaveFlow 在维持小体积和快速合成的同时，获得与 WaveNet 相当的 MOS。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。