[论文解读] MuseGAN: Symbolic-domain Music Generation and Accompaniment with Multi-track Sequential Generative Adversarial Networks
该论文提出MuseGAN,一种基于三种GAN变体——jamming、composer和hybrid模型——的多轨符号音乐生成框架,训练数据为127,731小节流行/摇滚音乐MIDI文件。该框架可从零开始生成连贯的四小节音乐序列,并通过根据人类提供的钢琴旋律生成伴奏轨,实现人机协作。
Generating music has a few notable differences from generating images and videos. First, music is an art of time, necessitating a temporal model. Second, music is usually composed of multiple instruments/tracks, with close interaction with one another. Each track has its own temporal dynamics, but collectively they unfold over time interdependently. Lastly, for symbolic domain music generation, the targeted output is sequences of discrete musical events, not continuous values. In this paper, we propose and study three generative adversarial networks (GANs) for symbolic-domain multi-track music generation, using a data set of 127,731 MIDI bars of pop/rock music. The three models, which differ in the underlying model assumption and accordingly the network architecture, are referred to as the jamming model, composer model, and hybrid model, respectively. We propose a few intra-track and inter-track objective metrics to examine and compare their generation result, in addition to a subjective evaluation. We show that our models can learn from the noisy MIDI files and generate coherent music of four bars right from scratch (i.e. without human inputs). We also propose extensions of our models to facilitate human-AI cooperative music creation: given the piano track composed by human we can generate four additional tracks in return to accompany it.
研究动机与目标
- 解决在时间依赖性和轨间依赖性下生成连贯多轨符号音乐的挑战。
- 开发针对符号音乐领域定制的深度生成模型,其中输出为离散音乐事件而非连续值。
- 通过根据人类提供的钢琴旋律生成伴奏轨,实现人机协作音乐创作。
- 设计并评估轨内与轨间度量,以定量评估音乐生成质量。
提出的方法
- 提出三种基于GAN的架构——jamming、composer和hybrid模型——其架构假设和训练目标各不相同,用于多轨音乐生成。
- 使用包含127,731小节流行/摇滚音乐MIDI文件的数据集,利用带有噪声的MIDI文件进行训练,使模型能泛化至现实世界中的不完美数据。
- 采用序列生成对抗框架,其中生成器网络生成多轨音乐序列,判别器评估时间连贯性与轨间协调性。
- 引入轨内度量以评估单个轨的质量(如音符序列一致性),以及轨间度量以评估和声与节奏协调性。
- 扩展模型以支持条件生成:给定人类创作的钢琴轨,模型可生成四条额外的乐器轨作为伴奏。
- 结合定量度量与主观评估,比较三种架构的模型性能。
实验结果
研究问题
- RQ1基于GAN的模型能否从随机噪声中生成连贯的四小节符号音乐序列,而无需人类输入?
- RQ2不同的架构假设(jamming、composer、hybrid)如何影响多轨音乐生成的质量与协调性?
- RQ3模型在存在噪声的真实MIDI文件中学习到的音乐模式,其泛化能力如何?
- RQ4模型能否有效支持人机协作音乐创作,即根据给定的钢琴旋律生成互补的伴奏轨?
主要发现
- 所提出的MuseGAN模型能够从随机噪声中成功生成连贯的四小节音乐序列,证明了使用GAN实现端到端符号音乐生成的可行性。
- hybrid模型在定量度量和主观评估中均优于jamming和composer模型,表明其在轨间协调与音乐连贯性方面表现更优。
- 模型对带有噪声的MIDI文件具有良好的泛化能力,即使在数据存在缺陷的情况下仍能学习到有意义的音乐模式。
- 条件生成支持了高效的人机协作:给定人类创作的钢琴轨,模型能为四条额外的乐器轨生成音乐上合理的伴奏。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。