QUICK REVIEW

[論文レビュー] MidiNet: A Convolutional Generative Adversarial Network for Symbolic-domain Music Generation

Li-Chia Yang, Szu-Yu Chou|arXiv (Cornell University)|Mar 31, 2017

Music Technology and Sound Studies参考文献 31被引用数 296

ひとこと要約

MidiNetは2-Dコンディショナーを備えたCNN-GANを導入し、記号ドメインで小節ごとのメロディを生成します。これはMelodyRNNと同等の現実感を示し、特にコード条件付けで知覚的な創造性が高いことが示されました。

ABSTRACT

Most existing neural network models for music generation use recurrent neural networks. However, the recent WaveNet model proposed by DeepMind shows that convolutional neural networks (CNNs) can also generate realistic musical waveforms in the audio domain. Following this light, we investigate using CNNs for generating melody (a series of MIDI notes) one bar after another in the symbolic domain. In addition to the generator, we use a discriminator to learn the distributions of melodies, making it a generative adversarial network (GAN). Moreover, we propose a novel conditional mechanism to exploit available prior knowledge, so that the model can generate melodies either from scratch, by following a chord sequence, or by conditioning on the melody of previous bars (e.g. a priming melody), among other possibilities. The resulting model, named MidiNet, can be expanded to generate music with multiple MIDI channels (i.e. tracks). We conduct a user study to compare the melody of eight-bar long generated by MidiNet and by Google's MelodyRNN models, each time using the same priming melody. Result shows that MidiNet performs comparably with MelodyRNN models in being realistic and pleasant to listen to, yet MidiNet's melodies are reported to be much more interesting.

研究の動機と目的

CNNが記号ドメインの小節ごとのメロディを効果的に生成できるか検証する。
事前の音楽情報を組み込む条件付け機構を備えた GANフレームワーク（生成器、識別器）を開発する。
生成を導くために前の小節とコード進行への条件付けを有効にする。
多トラックMIDIへの拡張や条件付けの多様性に対するモデルの柔軟性を示す。
再現性のある実装とMelodyRNNとのベースライン比較を提供する。

提案手法

各小節を、時間ステップ全体にわたるノートの有無を捉えるh×w行列として表現する。
ランダムノイズzを入力として生成器CNN(G)を用い、転置畳み込みにより小節状の2-Dスコアを生成する。
実データと生成データを識別する識別器CNN(D)を、交差エントロピー損失を用いて訓練する。
prior bars などの条件行列を処理し、Gの中間層に注入する conditioner CNNを導入する。
GAN訓練を安定させるために特徴量マッチングと片側ラベル平滑化を適用する。
3つのMidiNetバリアントを比較する： (1) 前の小節による条件付けを伴うメロディのみ、(2) 安定性のための和音条件付けを伴うメロディ、(3) 創造性のための和音と前の小節の条件付けを伴うメロディ。

実験結果

リサーチクエスチョン

RQ1CNN-GANは記号MIDIドメインで現実的で心地よいメロディを生成できるか？
RQ2前の小節への条件付けは時間的一貫性と音楽的構造を向上させるか？
RQ3コード進行への条件付けは和音的一貫性のあるメロディ生成を改善するか？
RQ4現実感、心地よさ、興味深さの点で、MidiNetは確立されたRNNベースのベースライン（MelodyRNN）とどう比較されるか？
RQ5このアプローチは多トラック音楽生成へ拡張可能か？

主な発見

MidiNetモデル1（前の小節による条件付け）は、心地よさと現実感の点でMelodyRNNと同等のメロディを生成し、聴衆からはより高い興味深さが知覚される。
MidiNetモデル2（和音条件付けを追加）は、音楽的背景の有無にかかわらず、検討されたバリアントの中で最も心地よさと現実感を達成した。
モデル3（コードと前の小節を含む強力な2-D条件付け）は、より強いセクショナル接続を課すことでより創造的な結果を生み出す。
ユーザーはMelodyRNNモデルを一般的に繰り返しや安全性の点で興味深さが低いと評価した一方、MidiNetのバリアントはより多様で潜在的に創造的な出力を提供した。
本研究は、 conditioner CNNを介した2-D条件付けが再帰的アーキテクチャを用いずに時間的構造を効果的に活用できることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。