QUICK REVIEW

[论文解读] MusPy: A Toolkit for Symbolic Music Generation

Hao‐Wen Dong, Ke Chen|arXiv (Cornell University)|Aug 5, 2020

Music and Audio Processing参考文献 33被引用 23

一句话总结

MusPy 是一个用于符号音乐生成的开源 Python 工具包，可简化数据 I/O、预处理、数据集管理和模型评估。它支持跨数据集泛化能力分析，揭示出在大型、多样化数据集（如 LMD）上训练的模型泛化能力更强，且混合异构数据集可提升模型在不同领域的鲁棒性和泛化能力。

ABSTRACT

In this paper, we present MusPy, an open source Python library for symbolic music generation. MusPy provides easy-to-use tools for essential components in a music generation system, including dataset management, data I/O, data preprocessing and model evaluation. In order to showcase its potential, we present statistical analysis of the eleven datasets currently supported by MusPy. Moreover, we conduct a cross-dataset generalizability experiment by training an autoregressive model on each dataset and measuring held-out likelihood on the others---a process which is made easier by MusPy's dataset management system. The results provide a map of domain overlap between various commonly used datasets and show that some datasets contain more representative cross-genre samples than others. Along with the dataset analysis, these results might serve as a guide for choosing datasets in future research. Source code and documentation are available at https://github.com/salu133445/muspy .

研究动机与目标

为解决符号音乐生成领域缺乏统一、可扩展的工具包的问题，该问题导致数据处理和评估缺乏标准化。
通过为多种音乐数据集、格式和表示提供一致的接口，实现可复现且高效的科研工作。
分析 11 个常用符号音乐数据集之间的统计和结构差异。
评估音乐生成模型的跨数据集泛化能力，并指导数据集选择。
探究将异构数据集组合是否能提升模型的泛化能力。

提出的方法

MusPy 提供一个中心化的 'Music' 对象，用于在多种格式中表示符号音乐，抽象低层次的数据表示。
支持 11 个数据集的 I/O 操作，涵盖多种格式（如 MIDI、MusicXML、ABC 等），并支持自动下载与解析。
该工具包包含标准化的预处理流程和音乐生成评估指标，包括困惑度（perplexity）和基于对齐的指标。
通过在一个数据集上训练自回归模型（如 LSTM），并在其他数据集上测试，以评估跨数据集泛化能力，测量保留数据的似然性。
在组合数据集时采用分层抽样，以减轻类别不平衡问题，提升泛化能力。
对数据集特征（如时长、流派、多声部性）进行统计分析，以比较其多样性与结构特性。

实验结果

研究问题

RQ1在时长、流派、多声部性以及音符分布方面，常用符号音乐数据集的统计特性有何差异？
RQ2在某一数据集上训练的模型在其他数据集上的泛化能力如何？哪些因素影响这种泛化能力？
RQ3将多个异构数据集组合是否能提升音乐生成模型的泛化性能？
RQ4哪些数据集因其跨流派和结构多样性而更适合作为预训练数据源？
RQ5数据集大小和表示类型（单音符 vs. 多音符）如何影响模型的困惑度和泛化能力？

主要发现

Lakh MIDI Dataset（LMD）展现出最佳的跨数据集泛化能力，可能归因于其庞大的规模和跨流派的多样性。
在多音符数据集上训练的模型能良好泛化到单音符数据集，但反之则不然，表明表示复杂度存在层级关系。
JSBach Chorale Dataset 在泛化到其他数据集时表现较差，可能因其固定的四分音符分辨率和同质的音符时长分布。
NES Music Database 构成显著的泛化挑战，大多数模型困惑度较高，可能因其独特的游戏音乐特征。
将全部 11 个数据集组合可显著提升在大多数目标数据集上的泛化能力，且分层抽样可降低对大型数据集的偏差，同时降低小型数据集上的困惑度。
在单音符和多音符两类中，困惑度均与数据集大小呈正相关，表明更大、更丰富的数据集更难建模。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。