[论文解读] Learning a Latent Space of Multitrack Measures
本文提出一种基于条件变分自编码器(conditional VAE)的潜在空间模型,用于建模多轨道配器音乐小节的符号MIDI表示,将其编码到解耦的潜在空间中。通过将MusicVAE扩展至支持最多8个轨道的动态与微时序,引入和弦条件控制,该模型实现了音乐上具有意义的操作,如插值、属性操控以及连贯的长序列生成,同时将和声与配器解耦。
Discovering and exploring the underlying structure of multi-instrumental music using learning-based approaches remains an open problem. We extend the recent MusicVAE model to represent multitrack polyphonic measures as vectors in a latent space. Our approach enables several useful operations such as generating plausible measures from scratch, interpolating between measures in a musically meaningful way, and manipulating specific musical attributes. We also introduce chord conditioning, which allows all of these operations to be performed while keeping harmony fixed, and allows chords to be changed while maintaining musical "style". By generating a sequence of measures over a predefined chord progression, our model can produce music with convincing long-term structure. We demonstrate that our latent space model makes it possible to intuitively control and generate musical sequences with rich instrumentation (see https://goo.gl/s2N7dV for generated audio).
研究动机与目标
- 使用深度生成模型建模多轨道配器音乐小节的潜在结构。
- 在共享潜在空间中实现直观且音乐上具有意义的操作,如插值与属性操控。
- 通过和弦条件控制实现和声进行与乐器编排的解耦,从而独立控制和声与配器。
- 通过将潜在代码插值与预设和弦进行结合,生成连贯的长时序音乐序列。
提出的方法
- 将MusicVAE扩展至使用事件表示法,建模最多8个配器MIDI轨道的动态与微时序。
- 采用具有高斯先验和自回归RNN解码器的条件VAE,对潜在空间中的音符事件进行建模。
- 通过从潜在状态中的音高类分布推断和弦信息,引入和弦条件控制。
- 在潜在空间中使用球面线性插值(slerp)生成两个音乐小节之间的平滑过渡。
- 通过计算具有与不具有目标属性(如音符密度、乐器类型)的样本之间的平均潜在差异,实现属性向量算术。
- 采用分层事件表示法,对每个轨道的音符开启/关闭时间、音高、力度和程序变化进行编码。
实验结果
研究问题
- RQ1深度生成模型能否学习到一个解耦的潜在空间,以同时捕捉多轨道音乐中的和声与配器结构?
- RQ2潜在空间中的插值在多大程度上能产生两个截然不同的音乐小节之间的音乐上连贯的过渡?
- RQ3在不重新训练的情况下,通过潜在向量算术实现特定属性(如增加音符密度)操控的范围和效果如何?
- RQ4和弦条件控制是否能实现和声与乐器编排的独立控制,同时保持风格一致性?
- RQ5通过将潜在代码插值与固定和弦进行结合,模型能否生成长时序、连贯的音乐序列?
主要发现
- 模型能够从先验分布中生成多样且合理的多轨道小节,展现出强大的零样本生成能力。
- 潜在空间插值能产生平滑且音乐上具有意义的过渡,具有感知上连贯的节奏与和声演变。
- 属性向量算术可有效操控音乐属性,如音域、乐器数量与音色特征,且无需显式微调。
- 和弦条件控制使不同和声背景下保持一致的乐器与节奏模式成为可能,支持基于律动的音乐生成。
- 通过将单一潜在代码与多个和弦结合,模型能生成连贯的多小节序列,在保持风格一致性的同时实现和声调性变化。
- 即使没有显式监督,模型也能学习推断与和弦根音对齐的低音音符,表明其隐式学习了和声惯例。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。