[论文解读] WaveFlow: A Compact Flow-based Model for Raw Audio
WaveFlow 提出一种紧凑的基于流的原始音频模型,通过最大似然训练,在保留高保真度的语音方面达到类似 WaveNet 的效果,但生成速度更快、占用资源更小。
In this work, we propose WaveFlow, a small-footprint generative flow for raw audio, which is directly trained with maximum likelihood. It handles the long-range structure of 1-D waveform with a dilated 2-D convolutional architecture, while modeling the local variations using expressive autoregressive functions. WaveFlow provides a unified view of likelihood-based models for 1-D data, including WaveNet and WaveGlow as special cases. It generates high-fidelity speech as WaveNet, while synthesizing several orders of magnitude faster as it only requires a few sequential steps to generate very long waveforms with hundreds of thousands of time-steps. Furthermore, it can significantly reduce the likelihood gap that has existed between autoregressive models and flow-based models for efficient synthesis. Finally, our small-footprint WaveFlow has only 5.91M parameters, which is 15$ imes$ smaller than WaveGlow. It can generate 22.05 kHz high-fidelity audio 42.6$ imes$ faster than real-time (at a rate of 939.3 kHz) on a V100 GPU without engineered inference kernels.
研究动机与目标
- 以紧凑的基于流的模型激发高效且高保真度的原始音频生成。
- 为一维波形数据架起基于似然的流模型与自回归模型之间的桥梁。
- 证明小型 WaveFlow 能在显著更快的合成速度下达到自回归性能。
- 表明 WaveFlow 相对于 WaveGlow 可减少参数数量,同时维持或提升保真度。
提出的方法
- 引入 WaveFlow,它将 1-D 波形挤压成 2-D 矩阵,并用具有表达力的自回归函数对局部变化进行建模。
- 使用扩张的 2-D 卷积结构实现流式映射中的条件位移和缩放。
- 定义一个三角雅可比矩阵,使在高度维度上能够并行计算似然和自回归合成。
- 直接使用最大似然进行训练,不使用辅助损失或密度蒸馏。
- 提供一个统一的视角,将 WaveNet 和 WaveGlow 视为基于流的模型的特殊情况。
- 尝试不同的高度 h 和置换策略,以在模型容量与推理并行性之间取得平衡。
实验结果
研究问题
- RQ1紧凑的 2-D 扩张卷积流模型是否能够在原始音频上实现接近自回归 WaveNet 的似然度?
- RQ2WaveFlow 如何将高度参数 h 调整以权衡生成速度与模型容量?
- RQ3在堆叠多个 Flow 层时,置换策略对似然和保真度有何影响?
- RQ4在参数、似然度和合成速度方面,WaveFlow 相较于 WaveGlow 和自回归 Flow 有何比较?
- RQ5在基于 Flow 的声码器中,似然与感知语音质量相关的程度如何?
主要发现
| Model | flows × layers | Res. channels | # Param | Test LLs |
|---|---|---|---|---|
| Gaussian WaveNet | 1 × 30 = 30 | 128 | 4.57 M | 5.059 |
| Autoregressive flow | 3 × 10 = 30 | 128 | 4.54 M | 5.161 |
| WaveGlow | 12 × 8 = 96 | 64 | 17.59 M | 4.804 |
| WaveGlow | 12 × 8 = 96 | 128 | 34.83 M | 4.927 |
| WaveGlow | 6 × 8 = 48 | 256 | 47.22 M | 4.922 |
| WaveGlow | 12 × 8 = 96 | 256 | 87.88 M | 5.018 |
| WaveGlow | 12 × 8 = 96 | 512 | 268.29 M | 5.026 |
| WaveFlow (h=8) | 8 × 8 = 64 | 64 | 5.91 M | 4.935 |
| WaveFlow (h=16) | 8 × 8 = 64 | 64 | 5.91 M | 4.954 |
| WaveFlow (h=32) | 8 × 8 = 64 | 64 | 5.91 M | 5.002 |
| WaveFlow (h=64) | 8 × 8 = 64 | 64 | 5.91 M | 5.023 |
| WaveFlow (h=8) | 6 × 8 = 48 | 96 | 9.58 M | 4.946 |
| WaveFlow (h=8) | 8 × 8 = 64 | 96 | 12.78 M | 4.977 |
| WaveFlow (h=16) | 8 × 8 = 64 | 96 | 12.78 M | 5.007 |
| WaveFlow (h=16) | 6 × 8 = 48 | 128 | 16.69 M | 4.990 |
| WaveFlow (h=8) | 8 × 8 = 64 | 128 | 22.25 M | 5.009 |
| WaveFlow (h=16) | 8 × 8 = 64 | 128 | 22.25 M | 5.028 |
| WaveFlow (h=32) | 8 × 8 = 64 | 128 | 22.25 M | 5.055 |
| WaveFlow (h=16) | 6 × 8 = 48 | 256 | 64.64 M | 5.064 |
| WaveFlow (h=16) | 8 × 8 = 64 | 256 | 86.18 M | 5.101 |
- 中等规模的 WaveFlow 在似然度上与 WaveNet 相当,并在几个顺序步骤中生成数千个时间步的高保真语音。
- WaveFlow 在类似参数规模下显著优于 WaveGlow 的似然度(例如,在相近规模下为 5.023 对 5.026)。
- 提高挤压高度 h 能提升似然度;具有更多流的更大模型在 LL 与 MOS 上表现更好,同时在达到某个点前也能实现更快的合成。
- 小型 WaveFlow(5.91M 参数)在 22.05 kHz 音频下以 42.60× 实时速度合成,在若干场景中在效率和保真度都优于 WaveGlow。
- 跨高度维度的置换策略(尤其是混合反向与二部排序)由于双向建模而显著提高似然度。
- 文本转语音实验表明 WaveFlow 在维持小体积和快速合成的同时,获得与 WaveNet 相当的 MOS。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。