Skip to main content
QUICK REVIEW

[论文解读] WaveFlow: A Compact Flow-based Model for Raw Audio

Wei Ping, Kainan Peng|arXiv (Cornell University)|Dec 3, 2019
Music and Audio Processing参考文献 47被引用 36
一句话总结

WaveFlow 提出一种紧凑的基于流的原始音频模型,通过最大似然训练,在保留高保真度的语音方面达到类似 WaveNet 的效果,但生成速度更快、占用资源更小。

ABSTRACT

In this work, we propose WaveFlow, a small-footprint generative flow for raw audio, which is directly trained with maximum likelihood. It handles the long-range structure of 1-D waveform with a dilated 2-D convolutional architecture, while modeling the local variations using expressive autoregressive functions. WaveFlow provides a unified view of likelihood-based models for 1-D data, including WaveNet and WaveGlow as special cases. It generates high-fidelity speech as WaveNet, while synthesizing several orders of magnitude faster as it only requires a few sequential steps to generate very long waveforms with hundreds of thousands of time-steps. Furthermore, it can significantly reduce the likelihood gap that has existed between autoregressive models and flow-based models for efficient synthesis. Finally, our small-footprint WaveFlow has only 5.91M parameters, which is 15$ imes$ smaller than WaveGlow. It can generate 22.05 kHz high-fidelity audio 42.6$ imes$ faster than real-time (at a rate of 939.3 kHz) on a V100 GPU without engineered inference kernels.

研究动机与目标

  • 以紧凑的基于流的模型激发高效且高保真度的原始音频生成。
  • 为一维波形数据架起基于似然的流模型与自回归模型之间的桥梁。
  • 证明小型 WaveFlow 能在显著更快的合成速度下达到自回归性能。
  • 表明 WaveFlow 相对于 WaveGlow 可减少参数数量,同时维持或提升保真度。

提出的方法

  • 引入 WaveFlow,它将 1-D 波形挤压成 2-D 矩阵,并用具有表达力的自回归函数对局部变化进行建模。
  • 使用扩张的 2-D 卷积结构实现流式映射中的条件位移和缩放。
  • 定义一个三角雅可比矩阵,使在高度维度上能够并行计算似然和自回归合成。
  • 直接使用最大似然进行训练,不使用辅助损失或密度蒸馏。
  • 提供一个统一的视角,将 WaveNet 和 WaveGlow 视为基于流的模型的特殊情况。
  • 尝试不同的高度 h 和置换策略,以在模型容量与推理并行性之间取得平衡。

实验结果

研究问题

  • RQ1紧凑的 2-D 扩张卷积流模型是否能够在原始音频上实现接近自回归 WaveNet 的似然度?
  • RQ2WaveFlow 如何将高度参数 h 调整以权衡生成速度与模型容量?
  • RQ3在堆叠多个 Flow 层时,置换策略对似然和保真度有何影响?
  • RQ4在参数、似然度和合成速度方面,WaveFlow 相较于 WaveGlow 和自回归 Flow 有何比较?
  • RQ5在基于 Flow 的声码器中,似然与感知语音质量相关的程度如何?

主要发现

Modelflows × layersRes. channels# ParamTest LLs
Gaussian WaveNet1 × 30 = 301284.57 M5.059
Autoregressive flow3 × 10 = 301284.54 M5.161
WaveGlow12 × 8 = 966417.59 M4.804
WaveGlow12 × 8 = 9612834.83 M4.927
WaveGlow6 × 8 = 4825647.22 M4.922
WaveGlow12 × 8 = 9625687.88 M5.018
WaveGlow12 × 8 = 96512268.29 M5.026
WaveFlow (h=8)8 × 8 = 64645.91 M4.935
WaveFlow (h=16)8 × 8 = 64645.91 M4.954
WaveFlow (h=32)8 × 8 = 64645.91 M5.002
WaveFlow (h=64)8 × 8 = 64645.91 M5.023
WaveFlow (h=8)6 × 8 = 48969.58 M4.946
WaveFlow (h=8)8 × 8 = 649612.78 M4.977
WaveFlow (h=16)8 × 8 = 649612.78 M5.007
WaveFlow (h=16)6 × 8 = 4812816.69 M4.990
WaveFlow (h=8)8 × 8 = 6412822.25 M5.009
WaveFlow (h=16)8 × 8 = 6412822.25 M5.028
WaveFlow (h=32)8 × 8 = 6412822.25 M5.055
WaveFlow (h=16)6 × 8 = 4825664.64 M5.064
WaveFlow (h=16)8 × 8 = 6425686.18 M5.101
  • 中等规模的 WaveFlow 在似然度上与 WaveNet 相当,并在几个顺序步骤中生成数千个时间步的高保真语音。
  • WaveFlow 在类似参数规模下显著优于 WaveGlow 的似然度(例如,在相近规模下为 5.023 对 5.026)。
  • 提高挤压高度 h 能提升似然度;具有更多流的更大模型在 LL 与 MOS 上表现更好,同时在达到某个点前也能实现更快的合成。
  • 小型 WaveFlow(5.91M 参数)在 22.05 kHz 音频下以 42.60× 实时速度合成,在若干场景中在效率和保真度都优于 WaveGlow。
  • 跨高度维度的置换策略(尤其是混合反向与二部排序)由于双向建模而显著提高似然度。
  • 文本转语音实验表明 WaveFlow 在维持小体积和快速合成的同时,获得与 WaveNet 相当的 MOS。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。