QUICK REVIEW

[论文解读] Music transcription modelling and composition using deep learning

Bob L. Sturm, João Felipe Santos|arXiv (Cornell University)|Apr 29, 2016

Music and Audio Processing参考文献 33被引用 78

一句话总结

本论文提出一种基于深度长短期记忆（LSTM）网络的深度学习框架，用于建模和生成以ABC记谱法表示的音乐记谱，训练数据集包含23,000首凯尔特民谣记谱。该系统生成的记谱在音乐上合理且风格一致，支持音乐创作，展现出在严格风格边界之外进行创意构思与改编的实用价值。

ABSTRACT

We apply deep learning methods, specifically long short-term memory (LSTM) networks, to music transcription modelling and composition. We build and train LSTM networks using approximately 23,000 music transcriptions expressed with a high-level vocabulary (ABC notation), and use them to generate new transcriptions. Our practical aim is to create music transcription models useful in particular contexts of music composition. We present results from three perspectives: 1) at the population level, comparing descriptive statistics of the set of training transcriptions and generated transcriptions; 2) at the individual level, examining how a generated transcription reflects the conventions of a music practice in the training transcriptions (Celtic folk); 3) at the application level, using the system for idea generation in music composition. We make our datasets, software and sound examples open and available: \url{https://github.com/IraKorshunova/folk-rnn}.

研究动机与目标

开发一种深度学习模型，能够生成反映凯尔特民谣音乐风格规范的音乐上有意义的记谱。
探索此类模型作为音乐创作工具的实用性，特别是在创意构思与风格变化方面的应用。
公开发布数据集、软件及生成示例，以支持可复现研究与社区参与。
不仅从统计角度，也通过专家与实际音乐创作情境中的音乐判断，评估模型性能。

提出的方法

在来自thesession.org的23,000份ABC记谱法记谱语料上，训练包含三层隐藏层、每层512个LSTM单元的深度LSTM网络。
采用两种训练方法：字符级建模（基于前50个字符预测下一个字符）与标记级建模（基于先前标记预测下一个音乐标记）。
使用温度采样进行序列生成，从学习到的音乐序列概率分布中生成新记谱。
通过与训练数据的统计比较、音乐惯例（如重复、音程轮廓、结构）的风格分析，以及实际创作应用，评估生成结果。
通过输入非典型音乐片段对模型进行种子生成，评估其适应性与创造性响应能力。
通过GitHub发布所有数据集、训练好的模型及示例输出，以支持开放、可复现的研究与社区反馈。

实验结果

研究问题

RQ1生成记谱的统计特性在多大程度上与训练数据匹配？
RQ2生成的记谱在多大程度上反映了凯尔特民谣音乐的风格规范，如旋律轮廓、重复与结构发展？
RQ3该模型能否作为音乐创作的实用工具，特别是在生成音乐上合理且可适应新语境的新颖创意方面？
RQ4当输入偏离其训练分布的音乐片段时，模型表现如何？
RQ5人工筛选与作曲家的干预在将模型输出转化为可演奏且风格一致的音乐中起到何种作用？

主要发现

生成的记谱在音符时值、音程分布与节奏结构方面与训练数据具有显著的统计相似性。
许多生成的记谱，如一首类似曲目《The Devil's in the Kitchen》的作品，经专家听觉评估认为音乐上合理，几乎可“直接用于演奏”。
该模型成功在多样化输出中应用风格规范，如重复、变奏与旋律轮廓，表明其有效学习了音乐语法规则。
当以非典型音乐片段作为种子时，模型能生成新颖且连贯的变体，展现出超越严格风格复制的适应能力。
该系统支持在创作中进行有意义的创造性探索，作曲家可引导模型向新的音乐方向发展，同时保持风格一致性。
人工筛选显著提升了模型性能，证实尽管系统能生成音乐上有意义的内容，但最终的艺术决策仍由作曲家主导。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。