[论文解读] Counterpoint By Convolution.
Coconet 训练一个深度卷积模型来在使用无序 NADE 训练的情况下完成部分多声部乐谱,并通过分组 Gibbs 采样提高样本质量,在巴赫和声测试中显示基于 Gibbs 的方法优于祖先采样。
Machine learning models of music typically break up the task of composition into a chronological process, composing a piece of music in a single pass from beginning to end. On the contrary, human composers write music in a nonlinear fashion, scribbling motifs here and there, often revisiting choices previously made. In order to better approximate this process, we train a convolutional neural network to complete partial musical scores, and explore the use of blocked Gibbs sampling as an analogue to rewriting. Neither the model nor the generative procedure are tied to a particular causal direction of composition. Our model is an instance of orderless NADE (Uria et al., 2014), which allows more direct ancestral sampling. However, we find that Gibbs sampling greatly improves sample quality, which we demonstrate to be due to some conditional distributions being poorly modeled. Moreover, we show that even the cheap approximate blocked Gibbs procedure from Yao et al. (2014) yields better samples than ancestral sampling, based on both log-likelihood and human evaluation.
研究动机与目标
- 引入一个用于音乐对位的卷积生成模型,能够完成部分乐谱。
- 利用无序NADE训练以实现对任意上下文的条件化。
- 评估采样策略并展示通过分块 Gibbs 采样提高样本质量。
- 在巴赫和声上以多种时间分辨率将性能与基于序列的模型进行比较。
提出的方法
- 将音乐表示为钢琴卷帘图(I x T x P),并使用深度CNN建模 p_theta(x)。
- 使用无序NADE训练以学习 p_theta(x_i | x_C) 对于所有上下文 C。
- 将乐谱的随机子集 C 进行遮罩,并使用基于音高的 softmax 重构其余部分。
- 使用基于帧的对数似然评估,在不需要真实帧的情况下对模型预测进行条件化。
- 比较严格按时间顺序与随机排序,并评估采样方法,包括祖先采样和带退火的分块 Gibbs 采样。
- 提供公开代码和样本以便复制。
实验结果
研究问题
- RQ1在无序 NADE 下训练的卷积模型是否能有效完成部分多声部乐谱?
- RQ2在无序 NADE 设置中,分块 Gibbs 采样是否比祖先采样提升样本质量?
- RQ3采样方案(祖先 vs 分块 Gibbs、独立 vs 祖先)如何影响巴赫和声的对数似然和人类评价?
- RQ4时间分辨率对多声部音乐生成中的模型似然和评估指标有何影响?
主要发现
| 模型 | 四分音符负对数似然 | 八分音符负对数似然 | 十六分音符负对数似然 |
|---|---|---|---|
| Nade [ 4 ] | 7.19 | ||
| RNN-RBM [ 4 ] | 6.27 | ||
| RNN - Nade [ 4 ] | 5.56 | ||
| RNN - Nade (our implementation) | 5.03 | 3.78 | 2.05 |
| Coconet (chronological) | 7.79±0.09 | 4.21±0.05 | 2.22±0.03 |
| Coconet (random) | 5.03±0.06 | 1.84±0.02 | 0.57±0.01 |
- 分块 Gibbs 采样显著提高样本质量,相对于祖先采样。
- 独立分块 Gibbs 采样比祖先采样产生更好样本且生成更快。
- 随机排序在巴赫和声上提供比严格按时间顺序更好的对数似然。
- 时间分辨率影响报告的对数似然,高分辨率因和弦变化稀疏而影响评估。
- 独立 Gibbs 的采样似然与 naive NADE 的祖先采样相当甚至优于,量化和人工评估均支持。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。