[论文解读] The challenge of realistic music generation: modelling raw audio at scale
本论文通过使用自回归离散自编码器来在原始音频域直接生成钢琴音乐,以捕捉跨越数十秒的长程结构,并在分层建模框架中比较 VQ-VAE 与 AMAE 的实现。
Realistic music generation is a challenging task. When building generative models of music that are learnt from data, typically high-level representations such as scores or MIDI are used that abstract away the idiosyncrasies of a particular performance. But these nuances are very important for our perception of musicality and realism, so in this work we embark on modelling music in the raw audio domain. It has been shown that autoregressive models excel at generating raw audio waveforms of speech, but when applied to music, we find them biased towards capturing local signal structure at the expense of modelling long-range correlations. This is problematic because music exhibits structure at many different timescales. In this work, we explore autoregressive discrete autoencoders (ADAs) as a means to enable autoregressive models to capture long-range correlations in waveforms. We find that they allow us to unconditionally generate piano music directly in the raw audio domain, which shows stylistic consistency across tens of seconds.
研究动机与目标
- 证明在原始音频中建模音乐是可行的,并且有助于捕捉符号表示忽略的演奏细节。
- 通过引入分层 ADA 来扩大感受野,解决自回归模型的局部结构偏差。
- 提出并比较两种离散瓶颈方案(VQ-VAE 和 AMAE),以实现对音乐数据的稳定、可扩展训练。
- 显示多层自回归模型能够生成具有长程音乐连贯性的钢琴音乐。
- 提供定性和定量分析,以评估生成样本的保真度和音乐性。
提出的方法
- 使用自回归离散自编码器(ADA)来创建一个离散、压缩的条件信号,信息量可控。
- 通过 (i) 向量量化的 VQ-VAE;(ii) 采用基于 Argmax 的量化和多样性损失的 AMAE 来实例化 ADA。
- 附加编码器下采样以产生较低速率的条件序列,并在编码序列上训练第二个自回归模型。
- 堆叠多个层级(跳步大小)以扩大有效感受野,启用长程结构建模。
- 使用波形级负对数似然、码本困惑度,以及定性的人耳听感研究进行评估,音频采用 16 kHz mu-law 8 位量化。
- 利用 WaveNet 风格的编码器、调制器和局部自回归解码器架构,实现对感受野的精确控制。
实验结果
研究问题
- RQ1自回归模型是否能在原始音频音乐中捕捉超越局部音色和短期动态的长程结构?
- RQ2拟层 ADA 架构(更大感受野)是否提升生成钢琴音频的音乐性和连贯性?
- RQ3在具挑战性的音乐数据上,VQ-VAE 与 AMAE 的瓶颈在训练稳定性、重建质量和码本利用率方面如何比较?
- RQ4堆叠多个 ADA 层是否在无条件钢琴音乐生成的保真度和音乐性方面带来可感知的提升?
主要发现
- 跳步大小为 8 的 ADA 相对于基线 WaveNet 在条件 NLL 上显著更低,当用作条件时,可以实现更长程的结构。
- AMAE 在具挑战性的音乐数据上提供比 VQ-VAE 更可靠的收敛,尽管在仔细训练(如 PBT)下 VQ-VAE 可以获得更好的重建。
- ADA 产生的码序列相较原始波形在局部上更不可预测,从而允许更高层的自回归建模捕捉更长程的模式。
- 二层和三层分层(ADA 在码序列上喂给大型 WaveNet)在感知音乐性方面带来显著提升,多层模型在许多样本中表现出更好的和声与结构。
- 取舍:提高长程保真度可能以牺牲局部信号保真度为代价;多 ADA 层的样本往往更具音乐连贯性,尽管保真度在不同乐曲中可能有所不同。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。