[论文解读] WaveNet: A Generative Model for Raw Audio
WaveNet 是一个完全概率自回归模型,使用扩张因果卷积来生成原始音频波形,在文本到语音合成(TTS)方面实现最先进的自然度,在音乐和语音识别方面展现出有前景的结果。
This paper introduces WaveNet, a deep neural network for generating raw audio waveforms. The model is fully probabilistic and autoregressive, with the predictive distribution for each audio sample conditioned on all previous ones; nonetheless we show that it can be efficiently trained on data with tens of thousands of samples per second of audio. When applied to text-to-speech, it yields state-of-the-art performance, with human listeners rating it as significantly more natural sounding than the best parametric and concatenative systems for both English and Mandarin. A single WaveNet can capture the characteristics of many different speakers with equal fidelity, and can switch between them by conditioning on the speaker identity. When trained to model music, we find that it generates novel and often highly realistic musical fragments. We also show that it can be employed as a discriminative model, returning promising results for phoneme recognition.
研究动机与目标
- 展示一个端到端生成原始音频波形的神经网络。
- 开发扩张因果卷积架构,以捕捉音频中的长程时间相关性。
- 表明基于说话人身份的条件化使单一模型实现多说话人生成成为可能。
- 在文本到语音、多说话人语音生成和音乐建模等任务上评估 WaveNet;探索像语音识别这样的判别性应用。
提出的方法
- 将联合波形概率建模为条件概率的乘积 p(x_t | x_1,...,x_{t-1})。
- 使用带扩张的因果卷积,在不使用循环网络的情况下实现非常大的感受野。
- 把音频通过 μ-law 量化,并用对 256 个值的 softmax 建模条件性的下一个样本分布。
- 引入门控激活单元以及残差/跳跃连接,以构建深层结构。
- 支持全局与局部条件化以引导生成(例如说话人身份、语言特征)。
- 可选地堆叠上下文模块以管理长距离依赖和异构时间尺度。
实验结果
研究问题
- RQ1一个完全概率的自回归模型是否能够直接在波形层面生成高保真原始音频?
- RQ2带扩张的因果卷积是否在不使用 RNN 的情况下提供足够的感受野以建模长程音频依赖?
- RQ3单一的 WaveNet 模型是否能够捕捉多位说话人,并且条件控制是否能够控制声音特征?
- RQ4与传统基线相比,WaveNet 在文本到语音中的表现如何?它能否建模音乐并支持语音识别任务?
主要发现
- WaveNet 在英语与普通话的文本到语音任务中达到主观自然度的最先进水平。
- 当以说话人身份为条件时,单一的 WaveNet 可以建模多位说话人。
- 带扩张的因果卷积提供呈指数增长的感受野,使得长程依赖建模成为可能。
- 在 MOS 测试中,WaveNet 以语言特征和 F0 为条件,表现超过统计参数化和拼接基线。
- 在 TIMIT 数据集上,带有用于帧分类的辅助损失的 WaveNet 实现 18.8% 的音素错误率,与原始音频判别模型相竞争。
- 条件化的 WaveNets 可以生成具有感知质量的音乐片段,全球/局部条件化支持对输出属性的控制。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。