[论文解读] Efficient Neural Audio Synthesis
介绍 WaveRNN,一种用于 24 kHz 16 位音频的轻量递归模型,通过双 softmax 输出、稀疏性和子尺度批处理,在实时或快于实时的合成中实现高保真度。
Sequential models achieve state-of-the-art results in audio, visual and textual domains with respect to both estimating the data distribution and generating high-quality samples. Efficient sampling for this class of models has however remained an elusive problem. With a focus on text-to-speech synthesis, we describe a set of general techniques for reducing sampling time while maintaining high output quality. We first describe a single-layer recurrent neural network, the WaveRNN, with a dual softmax layer that matches the quality of the state-of-the-art WaveNet model. The compact form of the network makes it possible to generate 24kHz 16-bit audio 4x faster than real time on a GPU. Second, we apply a weight pruning technique to reduce the number of weights in the WaveRNN. We find that, for a constant number of parameters, large sparse networks perform better than small dense networks and this relationship holds for sparsity levels beyond 96%. The small number of weights in a Sparse WaveRNN makes it possible to sample high-fidelity audio on a mobile CPU in real time. Finally, we propose a new generation scheme based on subscaling that folds a long sequence into a batch of shorter sequences and allows one to generate multiple samples at once. The Subscale WaveRNN produces 16 samples per step without loss of quality and offers an orthogonal method for increasing sampling efficiency.
研究动机与目标
- 在不牺牲质量的前提下,减少顺序神经音频模型的采样时间。
- 具备高效的 dual softmax 输出的单层 RNN(WaveRNN)。
- 探索权重剪枝和结构化稀疏性,以实现实时或设备端合成。
- 引入子尺度采样以批量生成多个样本以提高吞吐量。
提出的方法
- 提出 WaveRNN,一种具备 dual softmax 的单层 RNN,用于预测 16 位音频样本。
- 应用权重剪枝以创建 Sparse WaveRNN,并评估不同的稀疏模式(例如 4x4、16x1 块)。
- 实现自定义 GPU 内核以最小化开销并在 GPU 上实现实时采样。
- 引入 Subscale WaveRNN,将长序列折叠为较短序列的批次,并在每步生成多个样本。
- 尝试 Subscale Fusion 以增加每步生成的比特数。
- 在 24 kHz 16 位语音上使用 NLL、MOS 和 A/B 测试进行基准测试。
实验结果
研究问题
- RQ1紧凑型 RNN 具备 dual softmax,是否能达到 WaveNet 在 16 位音频上的质量?
- RQ2在固定参数预算下,结构化稀疏性如何影响合成质量?
- RQ3子尺度批处理是否能在保持保真度的同时实现实时或更快的采样?
- RQ4在设备端(移动 CPU)对稀疏 WaveRNN 进行采样的实际收益是什么?
- RQ5不同的生成方案(子尺度、融合子尺度)在吞吐量和质量方面的比较如何?
主要发现
- WaveRNN(896 单元)在 NLL 上与大型 WaveNet 相当,在 MOS 上与基线相似,具备 4× 实时 GPU 合成(96k samples/s)。
- 高稀疏度(超过 96%)的 Sparse WaveRNN 在相同参数数量下比小型密集网络具有更好的保真度,并且能够在移动 CPU 上实时运行。
- Subscale WaveRNN,B=16,在每步实现 16 个样本且音频保真度无损,并且实现批量采样以提高吞吐量。
- 在 GPU 上,单个持续的 WaveRNN 内核实现 96,000 samples/second(WaveRNN-896),而 WaveNet 基线为 8,000 samples/second。
- Sparse WaveRNN 移动端基准测试显示,在常见移动 CPU 上实现实时设备端合成,稀疏度为 95%,且具有 4x4 或 16x1 块结构。
- Fused Subscale WaveRNN 在 GPU 上生成每步 32 位时可达到 10× 实时。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。