QUICK REVIEW

[论文解读] Algorithmic Composition of Melodies with Deep Recurrent Neural Networks

Florian Colombo, Samuel P. Muscinelli|arXiv (Cornell University)|Jan 1, 2016

Music and Audio Processing参考文献 19被引用 21

一句话总结

本文提出一种基于门控循环单元（GRUs）的深度循环神经网络，通过从2,158首爱尔兰民歌的大型语料库中学习长程时间依赖关系，生成连贯的单音旋律。模型在归一化后的音高和时值序列上进行训练，能够生成在节奏模式、调性结构和风格特征上保持一致的、音乐上合理的旋律延续与完全自主的音乐作品，且无需显式规则或先验音乐知识。

ABSTRACT

A big challenge in algorithmic composition is to devise a model that is both easily trainable and able to reproduce the long-range temporal dependencies typical of music. Here we investigate how artificial neural networks can be trained on a large corpus of melodies and turned into automated music composers able to generate new melodies coherent with the style they have been trained on. We employ gated recurrent unit networks that have been shown to be particularly efficient in learning complex sequential activations with arbitrary long time lags. Our model processes rhythm and melody in parallel while modeling the relation between these two features. Using such an approach, we were able to generate interesting complete melodies or suggest possible continuations of a melody fragment that is coherent with the characteristics of the fragment itself.

研究动机与目标

开发一种机器学习模型，能够生成捕捉音乐中长程时间依赖关系的音乐连贯旋律。
克服马尔可夫模型和简单RNN在建模复杂音乐结构（如重复模式和转调）方面的局限性。
在大型真实世界爱尔兰民歌数据集上训练深度循环神经网络，从数据中自动学习风格特征。
评估模型生成新颖完整旋律以及合理延续部分旋律的能力。
证明基于GRU的RNN能够有效并行建模音高与时值，同时保持节奏与调性的一致性。

提出的方法

将旋律表示为经过独热编码的音高和时值向量序列，归一化至C大调/A小调及相对时值。
采用深层多层门控循环单元（GRU）网络来建模旋律数据中的序列依赖关系。
使用通过时间反向传播和随机梯度下降进行训练，以最小化对下一音符序列的预测误差。
通过从输出概率分布自回归采样的方式使用训练好的模型进行生成，起始点为一个种子音符。
在推理过程中应用温度采样，以控制生成旋律的随机性与多样性。
通过听觉评估与结构分析进行定性评估，并使用保留的测试数据似然性进行定量评估。

实验结果

研究问题

RQ1基于深度GRU的RNN能否学习并再现单音音乐中的长程节奏与旋律模式？
RQ2该模型在多大程度上能生成新颖、连贯且与训练数据风格一致的旋律？
RQ3该模型在旋律延续任务中的表现如何，能否同时保留节奏与调性结构？
RQ4在无显式架构或规则引导的情况下，该模型能否捕捉到如重复模式和临时转调等层次化音乐结构？
RQ5与马尔可夫链或LSTM基线模型相比，该模型在捕捉音乐连贯性方面的表现如何？

主要发现

基于GRU的模型成功学习并再现了复杂的节奏模式，例如在《Brother John》中出现的四段式结构，而这些特征无法被局部马尔可夫模型捕捉。
模型生成的新旋律被感知为连贯且音乐上悦耳，具有可识别的结构元素，如重复动机和临时转调。
在旋律延续任务中，模型生成的变体保留了输入种子的节奏与调性特征，包括主和弦与属和弦区域的交替。
模型在保留的测试数据上实现了较高的似然性，表明其对同一流派中未见旋律具有强大的泛化能力。
模型能够自主生成具有稳定节拍结构与调性一致性的完整歌曲，即使未显式建模时间 signature 亦然。
模型展示了仅从原始数据中学习并再现层次化音乐结构（如重复模式和乐句级 cadence）的能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。