QUICK REVIEW

[論文レビュー] Deep Learning for Music

Allen Huang, Raymond Wu|arXiv (Cornell University)|Jun 15, 2016

Music and Audio Processing参考文献 3被引用数 30

ひとこと要約

この論文では、MIDIおよびピアノロールの2つの表現形態で音楽を順序付きトークンとしてモデル化することで、メロディとハーモニーを併せ持つポリフォニック音楽を生成するための深層学習アプローチを提案している。マルチレイヤーLSTMネットワークを用いたモデルは、人間による評価を通じて6.2／10の平均スコアを得ており、最先端のRNN-NADEモデルと同等の音楽生成品質を達成した。

ABSTRACT

Our goal is to be able to build a generative model from a deep neural network architecture to try to create music that has both harmony and melody and is passable as music composed by humans. Previous work in music generation has mainly been focused on creating a single melody. More recent work on polyphonic music modeling, centered around time series probability density estimation, has met some partial success. In particular, there has been a lot of work based off of Recurrent Neural Networks combined with Restricted Boltzmann Machines (RNN-RBM) and other similar recurrent energy based models. Our approach, however, is to perform end-to-end learning and generation with deep neural nets alone.

研究の動機と目的

人間が作曲した楽曲を模倣できる、和声的・メロディアスな構造を持つ音楽を生成可能な深層生成モデルの開発。
語彙ベクトル表現（word2vec）と同様のベクトル表現を音符に適用することで、音楽的意味を捉えることができるかの検討。
複雑なエネルギーベースモデルやハイブリッドアーキテクチャに依存せずに、エンドツーエンドの深層ニューラルネットワークを音楽生成に適用する有効性の評価。
MIDIとピアノロールの異なるデータ表現形態が、ポリフォニック音楽構造をどれだけ効果的に捉えられるかの比較。
人間による評価を通じて、生成音楽の美的品質を評価し、モデルが人間が作曲した音楽や高度なモデルで生成された音楽と区別がつかない水準の音楽を生成できるかの検証。

提案手法

モデルは、MIDIおよびピアノロール表現からの音楽トークン列を生成するための、マルチレイヤーLSTMに基づく文字レベル言語モデルを採用している。
MIDIデータは、ノートオンおよびノートオフイベントを離散的トークンに変換することでトークン化され、トラックが1つのシーケンスにフラット化される。
ピアノロール表現では、各タイムステップをアクティブなノートを示すバイナリーベクトルとしてエンコードすることで、ポリフォニックコードの統合的モデリングが可能になる。
モデルは、バッハの160万トークンと、より広範なクラシカルデータセットからの2500万トークンを含む、大規模なクラシカル音楽コーパス上でエンドツーエンドに訓練されている。
t-SNE可視化を用いて学習済み埋め込みを分析し、モデルがピッチ関係やノートのグループ化をどれだけ正しく捉えているかを評価している。
人間による評価は、26名の被験者が生成音楽の音楽的妥当性および美的品質について1〜10のスケールで評価した。

実験結果

リサーチクエスチョン

RQ1エンドツーエンドの訓練のみを用いて、深層ニューラルネットワークがメロディとハーモニーを併せ持つ音楽を学習的に生成できるか。
RQ2自然言語におけるword2vec埋め込みと類似した意味的意味を持つ、音符のベクトル表現が存在するか。
RQ3フラット化されたMIDIトークン化に比べ、ピアノロール表現がポリフォニック構造をより効果的に保持できるか。
RQ4RNN-NADE や RTRBM といったより複雑なモデルと同等の美的品質の音楽を、単純なLSTMベースの言語モデルが生成できるか。
RQ5異なるデータ表現形態（MIDI 対ピアノロール）が、モデルがピッチ関係やリズム的構造を学習する能力に与える影響は何か。

主な発見

t-SNE可視化により、ピッチ関連のトークンが意味のあるクラスタリングを示しており、モデルが一貫性のあるメロディと和声的構造を生成できていることが示された。
ピアノロール表現により、学習済み埋め込み内で低音と高音が明確に分離され、ピッチ関係の捉え方がより優れていることが示された。
人間による評価では、26名中23名がモデル出力の音楽をRNN-NADEベースラインと同等以上、またはそれ以上に評価し、平均スコアは10点満点中6.2点であった。
より単純なアーキテクチャを採用しているにもかかわらず、RNN-NADEと同等の美的品質を達成したため、エンドツーエンドLSTM訓練が音楽生成に有効であることが示された。
t-SNE可視化によるノート埋め込みの明確なクラスタリングから、モデルが類似するピッチをグループ化し、リズム的パターンを保持していることが裏付けられた。
制限されたデータ（1100万トークン）でも、音楽的に妥当なサンプルが生成されたため、モデルが少ないデータでも一般化できることを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。