Skip to main content
QUICK REVIEW

[论文解读] MusPy: A Toolkit for Symbolic Music Generation

Hao‐Wen Dong, Ke Chen|arXiv (Cornell University)|Aug 5, 2020
Music and Audio Processing参考文献 33被引用 23
一句话总结

MusPy 是一个用于符号音乐生成的开源 Python 工具包,可简化数据 I/O、预处理、数据集管理和模型评估。它支持跨数据集泛化能力分析,揭示出在大型、多样化数据集(如 LMD)上训练的模型泛化能力更强,且混合异构数据集可提升模型在不同领域的鲁棒性和泛化能力。

ABSTRACT

In this paper, we present MusPy, an open source Python library for symbolic music generation. MusPy provides easy-to-use tools for essential components in a music generation system, including dataset management, data I/O, data preprocessing and model evaluation. In order to showcase its potential, we present statistical analysis of the eleven datasets currently supported by MusPy. Moreover, we conduct a cross-dataset generalizability experiment by training an autoregressive model on each dataset and measuring held-out likelihood on the others---a process which is made easier by MusPy's dataset management system. The results provide a map of domain overlap between various commonly used datasets and show that some datasets contain more representative cross-genre samples than others. Along with the dataset analysis, these results might serve as a guide for choosing datasets in future research. Source code and documentation are available at https://github.com/salu133445/muspy .

研究动机与目标

  • 为解决符号音乐生成领域缺乏统一、可扩展的工具包的问题,该问题导致数据处理和评估缺乏标准化。
  • 通过为多种音乐数据集、格式和表示提供一致的接口,实现可复现且高效的科研工作。
  • 分析 11 个常用符号音乐数据集之间的统计和结构差异。
  • 评估音乐生成模型的跨数据集泛化能力,并指导数据集选择。
  • 探究将异构数据集组合是否能提升模型的泛化能力。

提出的方法

  • MusPy 提供一个中心化的 'Music' 对象,用于在多种格式中表示符号音乐,抽象低层次的数据表示。
  • 支持 11 个数据集的 I/O 操作,涵盖多种格式(如 MIDI、MusicXML、ABC 等),并支持自动下载与解析。
  • 该工具包包含标准化的预处理流程和音乐生成评估指标,包括困惑度(perplexity)和基于对齐的指标。
  • 通过在一个数据集上训练自回归模型(如 LSTM),并在其他数据集上测试,以评估跨数据集泛化能力,测量保留数据的似然性。
  • 在组合数据集时采用分层抽样,以减轻类别不平衡问题,提升泛化能力。
  • 对数据集特征(如时长、流派、多声部性)进行统计分析,以比较其多样性与结构特性。

实验结果

研究问题

  • RQ1在时长、流派、多声部性以及音符分布方面,常用符号音乐数据集的统计特性有何差异?
  • RQ2在某一数据集上训练的模型在其他数据集上的泛化能力如何?哪些因素影响这种泛化能力?
  • RQ3将多个异构数据集组合是否能提升音乐生成模型的泛化性能?
  • RQ4哪些数据集因其跨流派和结构多样性而更适合作为预训练数据源?
  • RQ5数据集大小和表示类型(单音符 vs. 多音符)如何影响模型的困惑度和泛化能力?

主要发现

  • Lakh MIDI Dataset(LMD)展现出最佳的跨数据集泛化能力,可能归因于其庞大的规模和跨流派的多样性。
  • 在多音符数据集上训练的模型能良好泛化到单音符数据集,但反之则不然,表明表示复杂度存在层级关系。
  • JSBach Chorale Dataset 在泛化到其他数据集时表现较差,可能因其固定的四分音符分辨率和同质的音符时长分布。
  • NES Music Database 构成显著的泛化挑战,大多数模型困惑度较高,可能因其独特的游戏音乐特征。
  • 将全部 11 个数据集组合可显著提升在大多数目标数据集上的泛化能力,且分层抽样可降低对大型数据集的偏差,同时降低小型数据集上的困惑度。
  • 在单音符和多音符两类中,困惑度均与数据集大小呈正相关,表明更大、更丰富的数据集更难建模。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。