QUICK REVIEW

[论文解读] A Unit Selection Methodology for Music Generation Using Deep Neural Networks

Mason Bretan, Gil Weinberg|arXiv (Cornell University)|Dec 12, 2016

Music Technology and Sound Studies参考文献 4被引用 38

一句话总结

该论文提出了一种基于深度学习的音符单元选择方法，用于音乐生成，使用可变长度的音乐单元（1–4小节），结合深度结构化语义模型（DSSM）计算语义相关性，以及使用LSTM计算拼接代价。该方法在自然度和喜好度方面优于基于音符级别的生成方法，其中1小节和2小节的单元产生的结果在感知上最为连贯。

ABSTRACT

Several methods exist for a computer to generate music based on data including Markov chains, recurrent neural networks, recombinancy, and grammars. We explore the use of unit selection and concatenation as a means of generating music using a procedure based on ranking, where, we consider a unit to be a variable length number of measures of music. We first examine whether a unit selection method, that is restricted to a finite size unit library, can be sufficient for encompassing a wide spectrum of music. We do this by developing a deep autoencoder that encodes a musical input and reconstructs the input by selecting from the library. We then describe a generative model that combines a deep structured semantic model (DSSM) with an LSTM to predict the next unit, where units consist of four, two, and one measures of music. We evaluate the generative model using objective metrics including mean rank and accuracy and with a subjective listening test in which expert musicians are asked to complete a forced-choiced ranking task. We compare our model to a note-level generative baseline that consists of a stacked LSTM trained to predict forward by one note.

研究动机与目标

探究有限长度的可变长度音乐单元（1–4小节）是否能够通过单元选择实现有效的音乐生成。
开发一种生成模型，根据语义相关性和拼接质量对单元进行排序，以生成连贯且风格一致的音乐。
通过主观听音测试和客观指标评估生成音乐的感知质量，比较基于单元和基于音符的生成方法。
确定在基于单元选择的音乐生成中，平衡音乐结构与灵活性的最佳单元长度。

提出的方法

训练一个深度自编码器，通过从有限库中选择单元来重建输入音乐，从而定性评估库的充分性。
生成模型使用DSSM在压缩的嵌入空间中计算单元之间的语义相似性，衡量相关性。
训练LSTM以建模音乐事件的序列似然，用于在单元边界处计算拼接代价。
系统通过语义相关性与拼接代价的加权组合对候选单元进行排序。
通过基于复合得分依次选择并拼接单元来生成音乐，评估1、2或4小节长度的单元。
通过专家音乐家参与的强制选择听音测试，对生成音乐在自然度、喜好度和风格一致性方面进行主观评估。

实验结果

研究问题

RQ1有限长度的可变长度音乐单元（1–4小节）是否能够实现有效重建和新颖音乐的生成？
RQ2使用语义相关性和拼接代价进行单元选择，是否能生成比基于音符级别的生成方法更自然、风格更一致的音乐？
RQ3在基于单元选择的音乐生成中，1、2或4小节的最优单元长度是什么，以平衡音乐连贯性与结构多样性？
RQ4与基于音符级别的LSTM基线相比，基于单元选择生成的音乐在感知质量上如何？

主要发现

1小节单元系统在整体喜好度和自然度方面得分最高，其次为2小节单元，表明较短单元能产生更佳的感知连贯性结果。
4小节单元系统在生成段落的自然度方面得分最高，因其由原始未修改的音乐组成，但在整体评估中表现较差，原因在于灵活性有限。
基于音符的LSTM基线在种子段与生成段之间的过渡自然度方面得分最高，但随着生成过程推进，质量下降，表明存在误差累积现象。
主观听音测试显示，所有五个评估标准在不同系统之间均存在统计显著差异（p < .05），拒绝了无一致排名差异的原假设。
基于DSSM的语义相关性得分有效捕捉了单元之间的风格相关性，有助于提升生成音乐的感知连贯性。
DSSM与LSTM结合的评分机制使系统生成的音乐在整体喜好度和自然度方面始终优于基于音符的基线。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。