Skip to main content
QUICK REVIEW

[论文解读] Deep Learning for Music

Allen Huang, Raymond Wu|arXiv (Cornell University)|Jun 15, 2016
Music and Audio Processing参考文献 3被引用 30
一句话总结

本文提出一种基于多层长短期记忆(LSTM)网络的深度学习方法,通过将音乐建模为两种表示形式(MIDI 和钢琴卷帘)的序列标记,实现对多声部音乐中旋律与和声的联合生成。该模型在人类评估中表现出与当前最先进RNN-NADE模型相当的音乐生成质量,生成样本的平均评分为10分制中的6.2分。

ABSTRACT

Our goal is to be able to build a generative model from a deep neural network architecture to try to create music that has both harmony and melody and is passable as music composed by humans. Previous work in music generation has mainly been focused on creating a single melody. More recent work on polyphonic music modeling, centered around time series probability density estimation, has met some partial success. In particular, there has been a lot of work based off of Recurrent Neural Networks combined with Restricted Boltzmann Machines (RNN-RBM) and other similar recurrent energy based models. Our approach, however, is to perform end-to-end learning and generation with deep neural nets alone.

研究动机与目标

  • 开发一种深度生成模型,能够生成兼具和声与旋律结构的音乐,模拟人类创作的作品。
  • 探究是否可以有意义地将类似word2vec的向量表示应用于音乐音符,以捕捉音乐语义。
  • 评估端到端深度神经网络在音乐生成中的有效性,而无需依赖复杂的能量模型或混合架构。
  • 比较不同数据表示形式(MIDI与钢琴卷帘)在捕捉多声部音乐结构方面的有效性。
  • 通过人类评估衡量生成音乐的审美质量,以判断模型能否生成与人类创作或先进模型生成的音乐难以区分的音乐。

提出的方法

  • 该模型基于多层LSTM构建字符级语言模型,从MIDI和钢琴卷帘表示中生成音乐标记序列。
  • MIDI数据通过将音符触发(note-on)和释放(note-off)事件转换为离散标记进行分词,各音轨被展平为单一序列。
  • 钢琴卷帘表示将每个时间步编码为二值向量,指示哪些音符处于激活状态,从而实现对多声部和弦的联合建模。
  • 模型在大规模古典音乐语料库上进行端到端训练,包括巴赫作品中的160万个标记和更广泛古典音乐数据集中的2500万个标记。
  • 使用t-SNE可视化分析学习到的嵌入表示,评估模型是否捕捉了音高关系与音符分组模式。
  • 通过26名志愿者参与的人类评估,对生成音乐在1–10分制下进行音乐合理性与审美质量评分。

实验结果

研究问题

  • RQ1仅通过端到端训练,深度神经网络能否学会生成兼具旋律与和声结构的音乐?
  • RQ2是否存在一种有意义的音乐音符向量表示,类似于自然语言中的word2vec嵌入?
  • RQ3与展平的MIDI标记化相比,钢琴卷帘表示是否更能保留多声部结构?
  • RQ4基于简单LSTM的语言模型能否生成与RNN-NADE或RTRBM等复杂模型相当审美质量的音乐?
  • RQ5不同数据表示形式(MIDI与钢琴卷帘)如何影响模型学习音高关系与节奏结构的能力?

主要发现

  • 模型成功生成具有连贯旋律与和声结构的音乐,t-SNE可视化显示音高相关标记呈现出有意义的聚类。
  • 钢琴卷帘表示在学习到的嵌入中实现了低音与高音更清晰的分离,表明其更好地捕捉了音高关系。
  • 人类评估显示,26名志愿者中有23人认为该模型输出的音乐至少与RNN-NADE基线相当或更优,平均得分为10分制中的6.2分。
  • 尽管架构更简单,该模型仍实现了与RNN-NADE相当的审美质量,表明端到端LSTM训练在音乐生成中非常有效。
  • t-SNE可视化中音符嵌入的明显聚类表明,模型学会了将相似音高分组并保留节奏模式。
  • 即使使用缩减的数据集(1100万个标记),模型仍能生成具有音乐合理性的样本,表明其在数据减少时仍具备良好的泛化能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。