QUICK REVIEW

[论文解读] Neural Audio Synthesis of Musical Notes with WaveNet Autoencoders

Jesse Engel, Cinjon Resnick|arXiv (Cornell University)|Apr 5, 2017

Music and Audio Processing参考文献 26被引用 298

一句话总结

本文引入一种 WaveNet 风格的自编码器，用于学习音频合成的时序嵌入，并在 NSynth 上进行评估，显示相比谱自编码器基线具有更优的重建和有意义的音色插值。

ABSTRACT

Generative models in vision have seen rapid progress due to algorithmic improvements and the availability of high-quality image datasets. In this paper, we offer contributions in both these areas to enable similar progress in audio modeling. First, we detail a powerful new WaveNet-style autoencoder model that conditions an autoregressive decoder on temporal codes learned from the raw audio waveform. Second, we introduce NSynth, a large-scale and high-quality dataset of musical notes that is an order of magnitude larger than comparable public datasets. Using NSynth, we demonstrate improved qualitative and quantitative performance of the WaveNet autoencoder over a well-tuned spectral autoencoder baseline. Finally, we show that the model learns a manifold of embeddings that allows for morphing between instruments, meaningfully interpolating in timbre to create new types of sounds that are realistic and expressive.

研究动机与目标

开发一个 WaveNet 风格的自编码器，能够在无外部条件的情况下捕捉长程时间结构。
创建一个大规模、高质量的 NSynth 音符数据集以用于训练和评估。
证明在重建质量和感知保真度方面相对于谱自编码器基线的改进。
显示学习到的嵌入支持跨音色与动态的有意义插值。
探索嵌入如何编码音高与音色，以及条件化如何影响表示。

提出的方法

设计一个时间编码器：一个 30 层残差膨胀卷积网络，产生时间分布的嵌入 Z。
设计一个 WaveNet 解码器，通过在每一层引入 Z 的投影并对时域进行上采样，使其受嵌入 Z 条件影响，达到音频采样率。
使用 mu-law 8 位量化进行训练，并对每个输出样本进行以 Z 为条件的自回归生成。
与在频谱表示上训练的卷积谱自编码器基线进行比较。
使用 NSynth 作为数据集：约 306k 个音符、每个 4 秒、16 kHz、覆盖约 1000 种乐器。

实验结果

研究问题

RQ1WaveNet 风格的自编码器在没有外部条件的情况下是否能够学习音频合成的长期时间结构？
RQ2学习到的嵌入是否能够捕捉音色与动态，使乐器之间的插值产生现实的声音？
RQ3在重建质量和感知保真度方面，WaveNet 自编码器相对于谱自编码器基线的表现如何？
RQ4在学习的嵌入 Z 中，音高条件化在多大程度上实现音高与音色的解耦？
RQ5时序嵌入在超出训练上下文的泛化能力与性质为何？

主要发现

模型	音高准确度	质量准确度
Original Audio	91.6%	90.1%
WaveNet Recon	79.6%	88.9%
Baseline Recon	46.9%	85.2%

WaveNet 自编码器在重建任务中的感知与定性保真度高于谱自编码器基线。
基于嵌入训练的分类器显示 WaveNet 重构在音高与质量预测方面的准确性高于基线重构，表明音色与音高线索保留更好。
嵌入支持乐器之间有意义的音色/动态插值，产生感知上连贯的混合，而非简单叠加。
训练过程中的音高条件化在不同程度上实现了音高与音色的解耦，较大嵌入尺寸解耦程度较低。
时序嵌入呈现出驱动函数样的行为，使其能够推广到训练时未见过的更长的音符序列。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。