QUICK REVIEW

[论文解读] Convolutional Generative Adversarial Networks with Binary Neurons for Polyphonic Music Generation

Hao‐Wen Dong, Yi‐Hsuan Yang|arXiv (Cornell University)|Apr 25, 2018

Music and Audio Processing被引用 35

一句话总结

该论文提出一种两阶段卷积生成对抗网络（GAN），采用二值神经元直接生成用于多音音乐的二值钢琴卷轴，避免后处理。通过使用确定性二值神经元训练精炼网络，该模型在音乐质量方面表现更优，且相比硬阈值化或伯努利采样，显著减少了音符碎片化。主观评估结果表明，确定性二值化优于随机二值化。

ABSTRACT

It has been shown recently that deep convolutional generative adversarial networks (GANs) can learn to generate music in the form of piano-rolls, which represent music by binary-valued time-pitch matrices. However, existing models can only generate real-valued piano-rolls and require further post-processing, such as hard thresholding (HT) or Bernoulli sampling (BS), to obtain the final binary-valued results. In this paper, we study whether we can have a convolutional GAN model that directly creates binary-valued piano-rolls by using binary neurons. Specifically, we propose to append to the generator an additional refiner network, which uses binary neurons at the output layer. The whole network is trained in two stages. Firstly, the generator and the discriminator are pretrained. Then, the refiner network is trained along with the discriminator to learn to binarize the real-valued piano-rolls the pretrained generator creates. Experimental results show that using binary neurons instead of HT or BS indeed leads to better results in a number of objective measures. Moreover, deterministic binary neurons perform better than stochastic ones in both objective measures and a subjective test. The source code, training data and audio examples of the generated results can be found at https://salu133445.github.io/bmusegan/ .

研究动机与目标

解决现有 GAN 模型生成实数值钢琴卷轴后需后处理才能获得二值输出的局限性。
探究在生成器输出层使用二值神经元是否能生成更高质量、更具音乐连贯性的多音音乐。
在客观指标与主观感知方面，比较确定性与随机二值神经元的性能差异。
评估两阶段训练策略的有效性，即在预训练生成器与判别器后，再对精炼网络进行微调。
探索多流共享/私有判别器设计对音轨间和声与音符质量的影响。

提出的方法

采用两阶段训练流程：首先在真实钢琴卷轴上对生成器与判别器进行预训练，随后使用判别器对精炼网络进行微调。
精炼网络在输出层使用二值神经元（确定性或随机性），直接从实数值生成器输出生成二值钢琴卷轴。
精炼网络通过最小化对抗损失并确保输出被二值化，实现训练过程中的二值化集成，从而有效将二值化整合进训练流程。
精炼网络采用残差块结构，以稳定训练并提升特征学习能力。
判别器采用多流设计，包含共享分支与私有分支，以分别建模音轨间的和声关系与起音/发声模式。
模型结合对抗损失与重建损失，引导生成器与精炼网络生成逼真且连贯的钢琴卷轴输出。

实验结果

研究问题

RQ1能否通过在生成器中使用二值神经元，使 GAN 模型直接生成二值钢琴卷轴，从而消除对硬阈值化或伯努利采样等后处理方法的依赖？
RQ2使用确定性二值神经元是否在客观指标与主观音乐质量方面优于随机二值神经元或传统后处理方法？
RQ3与联合训练或端到端训练相比，两阶段训练策略在音乐质量与训练稳定性方面表现如何？
RQ4多流共享/私有判别器设计对音轨间和声关系与音符连贯性有何影响？
RQ5在训练过程中集成二值神经元，是否能通过聚焦于音乐相关特征，提升判别器对真实与生成音乐的区分能力？

主要发现

采用确定性二值神经元的模型在合格音符率（QN）达到 0.81，多音性（PP）达到 0.68，显著优于基线方法。
使用确定性二值神经元减少了音符碎片化，表现为 QN 为 0.81，且用户研究中 44% 的偏好表明音符连续性更优。
两阶段训练策略优于联合训练与端到端训练，其中联合训练策略在 10,000 步后 QN 显著下降。
所提出的多流判别器设计提升了音轨间和声关系，与消融实验 II 模型相比，总时长（TD）指标降低 12%。
在用户研究中，84% 的参与者更偏好确定性二值神经元模型，尤其指出其音符碎片更少。
采用确定性二值神经元的模型在整个训练过程中保持 QN 与 PP 的持续提升，而随机版本则表现出不稳定性与较低性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。