[论文解读] POP909: A Pop-song Dataset for Music Arrangement Generation
POP909 提供 909 个专业钢琴编排(MIDI),与主旋律和原始音频对齐,带有 tempo、beat、key 和 chord 注释,支持基线 Transformer 模型的钢琴伴奏与跨模态编排研究。
Music arrangement generation is a subtask of automatic music generation, which involves reconstructing and re-conceptualizing a piece with new compositional techniques. Such a generation process inevitably requires reference from the original melody, chord progression, or other structural information. Despite some promising models for arrangement, they lack more refined data to achieve better evaluations and more practical results. In this paper, we propose POP909, a dataset which contains multiple versions of the piano arrangements of 909 popular songs created by professional musicians. The main body of the dataset contains the vocal melody, the lead instrument melody, and the piano accompaniment for each song in MIDI format, which are aligned to the original audio files. Furthermore, we provide the annotations of tempo, beat, key, and chords, where the tempo curves are hand-labeled and others are done by MIR algorithms. Finally, we conduct several baseline experiments with this dataset using standard deep music generation algorithms.
研究动机与目标
- 提供高质量、时间对齐的流行歌曲钢琴编排数据集,以支持编排生成任务。
- 使钢琴伴奏生成能够以主旋律为条件并以音频为条件进行再编排(再编排),并具备精确的监督注释。
- 促进深度学习模型在符号音乐编排与跨模态生成方面的评估与开发。
提出的方法
- 将 909 首专业钢琴编排整合为 MIDI,并与原始音频及人声主旋律对齐。
- 手动标注节奏曲线并使用 MIR 算法提取 beat、key 和 chord 标签。
- 采用双队伍的编排与审核流程,确保钢琴编排的高质量、风格一致性。
- 将音乐表示为类似 MIDI 的事件序列,使用 Transformer 模型学习旋律与伴奏的联合分布。
- 在类似 MIDI 的事件词汇表上,训练具有关相对位置编码的 GPT-2 风格 Transformer,以建模多声部生成。
- 在推理阶段通过合并 MELODY 与 BRIDGE 音轨,将钢琴编排生成条件化到旋律。
实验结果
研究问题
- RQ1POP909 如何用于学习以主旋律或基于音频派生编排为条件的钢琴伴奏生成?
- RQ2标准深度生成模型(如 Transformer)在基于 POP909 的符号编排任务上能达到怎样的基线 performance?
- RQ3该数据集是否支持无条件符号生成、具表现力的演奏呈现,或跨模态编排任务?
主要发现
| 训练损失 | 训练精度 | 测试损失 | 测试精度 |
|---|---|---|---|
| 2.08978 | 0.62021 | 2.38122 | 0.54529 |
- 该数据集包含大约 60 小时的编排,覆盖 909 首歌,跨越从 1950s 到 ~2010 的时期,每个文件包含三个 MIDI 轨道(MELODY、BRIDGE、PIANO),并与音频对齐。
- 节奏曲线为人工标注;同时提供 beat、key 和 chord 注释(beat 与 chord 由 MIDI/音频通过 MIR 方法获取)。
- 两支队伍的质量控制实现了高质量、风格一致的钢琴编排,适用于编排任务。
- 在 MIDI-like 事件表示上的基线 Transformer 实验显示训练损失为 2.08978(Train),2.38122(Test),准确率为 0.62021(Train)和 0.54529(Test)。
- 条件化的以旋律为条件的钢琴编排生成在和声关系与节奏方面表现出一致性,说明数据集对 Task 1 与 Task 2 的实用性。
- 该数据集支持编排生成与跨模态生成(如音频到钢琴的降重等),相比以往数据集为编排研究提供了更丰富的资源。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。