QUICK REVIEW

[论文解读] C-RNN-GAN: Continuous recurrent neural networks with adversarial training

Olof Mogren|arXiv (Cornell University)|Nov 29, 2016

Generative Adversarial Networks and Image Synthesis参考文献 9被引用 381

一句话总结

本文介绍了 C-RNN-GAN，一种用于连续序列数据的生成对抗网络，应用于 MIDI-古典音乐，使用连续音调表示和循环神经网络来建模序列的联合分布。

ABSTRACT

Generative adversarial networks have been proposed as a way of efficiently training deep generative neural networks. We propose a generative adversarial model that works on continuous sequential data, and apply it by training it on a collection of classical music. We conclude that it generates music that sounds better and better as the model is trained, report statistics on generated music, and let the reader judge the quality by downloading the generated songs.

研究动机与目标

阐明并评估针对在连续数据上运行而非离散记号的序列模型的对抗训练。
演示一个端到端可训练的模型（C-RNN-GAN），能够生成连续音乐事件序列。
使用多声部、音阶一致性和音调范围等指标评估生成音乐的质量。
将对抗训练与基线的下一事件预测模型进行比较，以评估输出的变异性和结构。

提出的方法

提出一个由 LSTM 网络构建的生成器 G 和一个双向判别器 D，用于建模连续序列数据。
将每个音乐事件表示为一个实值四元组：音调长度、频率、强度，以及自上次音调以来的时间。
为 G 和 D 定义 GAN 目标：L_G = (1/m) sum log(1 - D(G(z))) 和 L_D = (1/m) sum [-log D(x) - log(1 - D(G(z)))]，其中 z 是均匀随机输入。
用下一事件预测的监督平方误差损失对 G 进行预训练，然后切换到带有课程序列化的对抗训练和小批量随机梯度下降。
使用特征匹配作为生成器的替代目标，以促进多样性并稳定训练。
结合训练技巧，如在 D 的损失相对于 G 的损失下降到阈值以下时冻结 D，以维持有用的梯度。

实验结果

研究问题

RQ1对像音乐这样的完全连续的序列数据（非离散记号）上的递归网络，是否可以有效应用对抗训练？
RQ2与纯粹基于似然的基线相比，C-RNN-GAN 是否产生更具变异性和和声的音乐？
RQ3每个时间步输出多个音调如何影响和声与音乐多样性？
RQ4哪些训练稳定化策略（预训练、冻结、特征匹配）能改善训练动态和生成音乐的质量？

主要发现

对抗训练提高了生成音乐的变异性，音调跨度和强度跨度更大。
允许每个 LSTM 单元输出最多三个音调可以提升和声分数。
特征匹配和谨慎的训练稳定化在生成音乐的结构与惊奇度之间取得了更好的权衡。
生成的音乐比基线更接近真实音乐，但尚未达到人工评估的质量。
三音每单元变体（CRNN-GAN-3）在更长训练后达到更高的和声音和跨度指标。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。