Skip to main content
QUICK REVIEW

[论文解读] Pop Music Transformer: Generating Music with Rhythm and Harmony

Yu-Siang Huang, Yi‐Hsuan Yang|arXiv (Cornell University)|Feb 1, 2020
Music and Audio Processing参考文献 15被引用 27
一句话总结

本文提出 Pop Music Transformer,一种新颖的数据表示方法,通过显式编码节拍、小节和乐句的节律结构,使 Transformer 能够生成具有显著提升的节奏与和声一致性的流行钢琴音乐。通过将分层的时间与和声上下文嵌入输入,该模型生成的音乐比标准 Transformer 更具结构性与表现力。

ABSTRACT

A great number of deep learning based models have been recently proposed for automatic music composition. Among these models, the Transformer stands out as a prominent approach for generating expressive classical piano performance with a coherent structure of up to one minute. The model is powerful in that it learns abstractions of data on its own, without much human-imposed domain knowledge or constraints. In contrast with this general approach, this paper shows that Transformers can do even better for music modeling, when we improve the way a musical score is converted into the data fed to a Transformer model. In particular, we seek to impose a metrical structure in the input data, so that Transformers can be more easily aware of the beat-bar-phrase hierarchical structure in music. The new data representation maintains the flexibility of local tempo changes, and provides hurdles to control the rhythmic and harmonic structure of music. With this approach, we build a Pop Music Transformer that composes Pop piano music with better rhythmic structure than existing Transformer models.

研究动机与目标

  • 通过在输入表示中编码节拍结构(节拍、小节、乐句),提升基于 Transformer 的音乐生成效果。
  • 使 Transformer 能够更有效地学习节奏与和声模式,而无需依赖手工设计的约束条件。
  • 在增强音乐结构一致性的前提下,保持对局部速度变化的灵活性。
  • 证明结构化的输入表示可带来生成音乐中更优的节奏与和声组织。

提出的方法

  • 模型采用改进的标记化方案,显式标记输入序列中的节拍、小节与乐句边界。
  • 音乐谱通过反映分层节拍结构的位置嵌入进行编码,而非仅依赖序列位置。
  • 将和声信息(和弦进行)作为附加标记特征整合,以引导和声一致性。
  • 模型采用标准 Transformer 架构,但输入标记通过节拍与和声上下文得到增强。
  • 通过动态调整节拍位置,该表示支持局部速度变化,同时保持结构感知能力。
  • 在流行钢琴音乐数据集上进行训练,损失函数针对旋律与和声进行优化。

实验结果

研究问题

  • RQ1在输入表示中显式引入节拍结构,是否能提升基于 Transformer 的音乐生成中的节奏一致性?
  • RQ2整合和声上下文对生成的流行音乐的结构质量有何影响?
  • RQ3分层时间表示在多大程度上能增强人工智能生成钢琴音乐的表现力与一致性?
  • RQ4结构化的输入表示是否使 Transformer 能够生成比标准模型更优的乐句与终止式结构?

主要发现

  • 与标准 Transformer 模型相比,Pop Music Transformer 生成的音乐在节奏结构方面有显著改善。
  • 该模型在保持强节拍感知能力的同时,对局部速度变化具有灵活性。
  • 由于输入表示中显式整合了和弦进行,和声一致性得到增强。
  • 模型生成的乐句与终止式更具连贯性,反映出更强的结构理解能力。
  • 人工评估者认为生成的音乐更具表现力,且在风格上更符合流行钢琴音乐特征。
  • 该方法在不增加额外架构修改的前提下,优于基线 Transformer 模型的结构一致性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。