[论文解读] Pop Music Transformer: Beat-based Modeling and Generation of Expressive Pop Piano Compositions
引入 REMI,一种基于拍点的事件表示,供 Transformer 模型使用,以改善流行钢琴生成中的节律结构,优于先前的类似 MIDI 的方法。
A great number of deep learning based models have been recently proposed for automatic music composition. Among these models, the Transformer stands out as a prominent approach for generating expressive classical piano performance with a coherent structure of up to one minute. The model is powerful in that it learns abstractions of data on its own, without much human-imposed domain knowledge or constraints. In contrast with this general approach, this paper shows that Transformers can do even better for music modeling, when we improve the way a musical score is converted into the data fed to a Transformer model. In particular, we seek to impose a metrical structure in the input data, so that Transformers can be more easily aware of the beat-bar-phrase hierarchical structure in music. The new data representation maintains the flexibility of local tempo changes, and provides hurdles to control the rhythmic and harmonic structure of music. With this approach, we build a Pop Music Transformer that composes Pop piano music with better rhythmic structure than existing Transformer models.
研究动机与目标
- 提高基于 Transformer 的流行钢琴生成中的节律规律性和音乐连贯性。
- 研究显式的拍子度量和和声令牌如何影响学习和生成质量。
- 将基于 REMI 的建模与 MIDI 风格表示和基线 Transformer 模型进行比较。
- 提供一个开放框架和数据/代码,以实现可重复的基于拍点的音乐生成研究。
提出的方法
- 提出 REMI,一种基于拍点的事件表示,使用 Bar 和 Position 标记来编码拍点结构。
- 用 Tempo 和 Chord 标记扩展输入,以捕捉局部速度变化和和声上下文。
- 以 Transformer-XL 作为骨干来建模 REMI 事件的统一序列。
- 利用音频域的音乐信息检索工具(拍点/下拍跟踪、节拍估计)和和弦识别进行数据准备。
- 在通过自动转写(Onsets and Frames)从音频派生的775个流行钢琴转录上进行训练。
- 对比基线 Music Transformer,进行客观评估(节律结构指标)和主观评估(聆听测试)两方面。
实验结果
研究问题
- RQ1通过 Bar 和 Position 嵌入基于拍点的拍点网格是否能提高 Transformer 生成音乐的节律规律性?
- RQ2添加 Tempo 和 Chord 标记对表达力和和声控制有何影响?
- RQ3在客观节奏指标和主观质量方面,REMI 与 MIDI 风格表示及基线 Transformer 的比较如何?
主要发现
- REMI 在节拍/强拍相关指标方面优于 MIDI 风格基线,提升节律规则性。
- Tempo 事件对于富有表现力的节奏自由度很重要,REMI 模型显示出更强的下拍显著性。
- 主观评估显示在聆听测试中,REMI 相较 Baseline 1 和 Baseline 3 更受欢迎。
- 显式音符持续时长(而非 Note-Off)相较于 MIDI 风格表示更稳定节律。
- 小节/位置的拍点网格有助于更清晰地学习小节级依赖,并支持潜在的多轨道条件化。
- 客观指标表明 REMI 产生的节律比基线更接近训练数据。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。