Skip to main content
QUICK REVIEW

[论文解读] MidiNet: A Convolutional Generative Adversarial Network for Symbolic-domain Music Generation

Li-Chia Yang, Szu-Yu Chou|arXiv (Cornell University)|Mar 31, 2017
Music Technology and Sound Studies参考文献 31被引用 296
一句话总结

MidiNet 引入了带有 2-D 条件器的 CNN-GAN,用符号域逐小节生成旋律,显示出与 MelodyRNN 相当的真实感,并在感知创造力方面更高,尤其是在和弦条件下。

ABSTRACT

Most existing neural network models for music generation use recurrent neural networks. However, the recent WaveNet model proposed by DeepMind shows that convolutional neural networks (CNNs) can also generate realistic musical waveforms in the audio domain. Following this light, we investigate using CNNs for generating melody (a series of MIDI notes) one bar after another in the symbolic domain. In addition to the generator, we use a discriminator to learn the distributions of melodies, making it a generative adversarial network (GAN). Moreover, we propose a novel conditional mechanism to exploit available prior knowledge, so that the model can generate melodies either from scratch, by following a chord sequence, or by conditioning on the melody of previous bars (e.g. a priming melody), among other possibilities. The resulting model, named MidiNet, can be expanded to generate music with multiple MIDI channels (i.e. tracks). We conduct a user study to compare the melody of eight-bar long generated by MidiNet and by Google's MelodyRNN models, each time using the same priming melody. Result shows that MidiNet performs comparably with MelodyRNN models in being realistic and pleasant to listen to, yet MidiNet's melodies are reported to be much more interesting.

研究动机与目标

  • 研究卷积神经网络(CNN)是否能够有效逐小节生成符号域旋律。
  • 开发一个带有条件机制的 GAN 框架(生成器、判别器),以融入先前的音乐信息。
  • 使对前面小节和和弦进程的条件化成为可能,以引导生成。
  • 展示模型的灵活性,使其能够扩展到多轨 MIDI 和不同的条件设定。
  • 提供可重复实现,并与 MelodyRNN 进行基线对比。

提出的方法

  • 将每个小节表示为一个 h-by-w 的矩阵,捕捉跨时间步的音符存在。
  • 使用一个生成器 CNN(G),通过随机噪声 z 提供输入,利用转置卷积生成近似小节的二维乐谱。
  • 使用交叉熵损失训练判别器 CNN(D),以区分真实小节数据和生成小节数据。
  • 引入一个 condi­tioner CNN,处理条件矩阵(如前面的小节),并将其注入 G 的中间层。
  • 应用特征匹配和单边标签平滑来稳定 GAN 训练。
  • 比较三个 MidiNet 变体:(1)仅旋律,带前一小节的条件;(2)带和弦条件的旋律以提高稳定性;(3)带和弦和前一小节条件的旋律以提升创造力。

实验结果

研究问题

  • RQ1CNN-GAN 是否能够在符号 MIDI 域生成真实且悦耳的旋律?
  • RQ2对前一小节进行条件化是否能改善时间一致性与音乐结构?
  • RQ3对和弦进行条件化是否能提升和声一致的旋律生成?
  • RQ4在真实感、悦耳度和趣味性方面,MidiNet 相较于已建立的基线 RNN(MelodyRNN)表现如何?
  • RQ5该方法可扩展到多轨道音乐生成吗?

主要发现

  • MidiNet Model 1(前一小节条件)在悦耳度与真实感方面与 MelodyRNN 相当,且听众感知的有趣度更高。
  • MidiNet Model 2(加入和弦条件)在所研究的变体中,对有无音乐背景的听众均达到最高的悦耳度和真实感。
  • Model 3(带和弦和前一小节的强 2-D 条件)通过加强跨小节连接,产生更具创造性的结果。
  • 用户通常认为 MelodyRNN 模型由于重复性或保守性而较少有趣,而 MidiNet 变体提供了更多样化且潜在更具创造性的输出。
  • 研究表明,通过 conditioner CNN 的 2-D 条件化能够在不使用循环结构的情况下有效利用时间结构。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。