[论文解读] Text-based LSTM networks for Automatic Music Composition
本文提出使用基于文本的LSTM网络进行自动音乐创作,通过字符级和词级RNN从音乐的文本表示中生成爵士和弦进行与摇滚鼓点。词级RNN成功生成了具有音乐连贯性的序列,而字符级RNN仅在和弦进行中表现成功,表明词级建模在控制多样性参数(温度)下对复杂节奏与和声结构具有有效性。
In this paper, we introduce new methods and discuss results of text-based LSTM (Long Short-Term Memory) networks for automatic music composition. The proposed network is designed to learn relationships within text documents that represent chord progressions and drum tracks in two case studies. In the experiments, word-RNNs (Recurrent Neural Networks) show good results for both cases, while character-based RNNs (char-RNNs) only succeed to learn chord progressions. The proposed system can be used for fully automatic composition or as semi-automatic systems that help humans to compose music by controlling a diversity parameter of the model.
研究动机与目标
- 探索在不使用符号或数值音乐编码的情况下,使用基于文本的LSTM网络进行自动音乐创作的可行性。
- 比较基于字符和基于词的RNN在从和弦与鼓点的原始文本表示中学习音乐序列方面的表现。
- 评估LSTM是否能仅通过文本输入建模音乐序列中的长期依赖关系。
- 开发一个支持完全自动与半自动音乐创作、且输出多样性可调的系统。
提出的方法
- 该模型使用长短期记忆(LSTM)网络处理以文本形式表示的音乐事件序列。
- 对于和弦进行,和弦以类似'C:maj'或'G:7'的字符串表示,网络预测序列中的下一个标记。
- 对于鼓点,使用鼓组件(Kick、Snare、Hi-hats等)的二进制编码,每个16分音符表示为一个9位向量,每小节用'_BAR_'标记。
- 两项任务均使用词级RNN,引入多样性控制参数α,用于在采样过程中调整softmax温度。
- 网络通过反向传播时间算法在大量将MIDI文件转换为文本序列的数据集上进行训练。
- 系统通过自回归方式从学习到的下一个标记概率分布中采样,条件为先前序列。
实验结果
研究问题
- RQ1基于文本的LSTM网络能否有效从和弦的原始文本表示中学习并生成具有音乐连贯性的和弦进行?
- RQ2在编码极简且为二进制的情况下,字符级RNN能否成功建模鼓点中的复杂节奏模式?
- RQ3在不同音乐类型中,词级建模与字符级建模在音乐连贯性与结构学习方面有何差异?
- RQ4通过采样过程中的温度参数,生成音乐的多样性在多大程度上可被控制?
- RQ5该模型能否仅从纯文本输入中学习到全局结构模式,如小节边界与节奏一致性?
主要发现
- 词级RNN成功生成了具有可识别和声与节奏结构的音乐连贯性爵士和弦进行与摇滚鼓点。
- 字符级RNN仅在和弦进行中表现成功,未能学习鼓点中的结构模式,可能由于二进制0/1序列的极端稀疏性及长期时间依赖性。
- 该模型学会了生成一致的8拍hi-hat模式、在拍点上的Snare/Kick组合,以及在较高多样性设置下常见的踩镲或军鼓填充。
- 多样性参数α有效控制了生成鼓点的复杂度:低α值产生简单重复的模式,而高α值引入了更复杂的填充。
- 包含'_BAR_'标记有助于网络学习小节级结构,尤其在词级RNN中表现明显,生成输出中显示出一致的小节分割。
- 该系统展示了作为半自动作曲工具的潜力,用户可通过调节α来控制输出的技术复杂度,从而引导生成过程。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。