QUICK REVIEW

[論文レビュー] Algorithmic Composition of Melodies with Deep Recurrent Neural Networks

Florian Colombo, Samuel P. Muscinelli|arXiv (Cornell University)|Jan 1, 2016

Music and Audio Processing参考文献 19被引用数 21

ひとこと要約

この論文では、2,158首のアイルランド民謡のコーパスから長距離の時間的依存関係を学習することで、一貫性のあるモノフォニックメロディを生成するため、ゲート付き再帰ユニット（GRU）を用いた深層再帰ニューラルネットワークを提案する。ノーマライズド・ピッチおよびディュレーションのシーケンスで訓練されたモデルは、明示的な規則や事前の音楽的知識を必要とせず、リズム的パターン、調性構造、スタイル的特徴を保持した部分メロディの継続的生成および完全に自律的な作曲を可能にする。

ABSTRACT

A big challenge in algorithmic composition is to devise a model that is both easily trainable and able to reproduce the long-range temporal dependencies typical of music. Here we investigate how artificial neural networks can be trained on a large corpus of melodies and turned into automated music composers able to generate new melodies coherent with the style they have been trained on. We employ gated recurrent unit networks that have been shown to be particularly efficient in learning complex sequential activations with arbitrary long time lags. Our model processes rhythm and melody in parallel while modeling the relation between these two features. Using such an approach, we were able to generate interesting complete melodies or suggest possible continuations of a melody fragment that is coherent with the characteristics of the fragment itself.

研究の動機と目的

長距離の時間的依存関係を捉える音楽的に整合性のあるメロディを生成できる機械学習モデルの開発。
繰り返しパターンや調性移動といった複雑な音楽的構造をモデル化する際の、マルコフモデルや単純なRNNの限界を克服すること。
アイルランド民謡の実世界の大規模データセットを用いて、スタイル的特徴をデータから自動的に学習する深層再帰ニューラルネットワークの訓練。
モデルが新規で完全なメロディを生成できる能力および部分メロディの妥当な継続を提示できる能力の評価。
GRUベースのRNNが、リズム的・調性的整合性を保ちながら、ピッチとディュレーションを同時に効果的にモデル化できることの実証。

提案手法

メロディを、Cメジャー／Aマイナーに正規化され、相対的ディュレーションをとったone-hotエンコーディングされたピッチおよびディュレーションベクトルのシーケンスとして表現する。
メロディデータ内の順序的依存関係をモデル化するために、深層マルチレイヤーのゲート付き再帰ユニット（GRU）ネットワークを採用する。
次ノートのシーケンスにおける予測誤差を最小化する目的で、バックプロパゲーション・スル・タイムと確率的勾配降下法を用いてネットワークを訓練する。
生成には、初期ノートを出発点として、出力確率分布から自己回帰的にサンプリングする。
推論時に温度サンプリングを適用し、生成されるメロディのランダム性と多様性を制御する。
生成品質の評価を、聴取および構造的分析による定性的評価と、ホールドアウトテストデータの尤度を用いた定量的評価の両方で実施する。

実験結果

リサーチクエスチョン

RQ1深層GRUベースのRNNは、モノフォニック音楽における長距離のリズム的・メロディックなパターンを学習し、再現できるか？
RQ2モデルは、学習データとスタイル的に一貫性のある、新規で整合性のあるメロディをどの程度生成できるか？
RQ3リズム的および調性的構造を保持するという点で、モデルはメロディ継続タスクにどの程度適応できるか？
RQ4明示的なアーキテクチャ的またはルールベースのガイダンスなしで、繰り返しパターンや一時的な調性移動といった階層的音楽的構造をモデルが捉えることができるか？
RQ5モデルの性能は、マルコフ連鎖やLSTMベースのアプローチといった単純なモデルと比較して、音楽的整合性をどの程度捉えられるか？

主な発見

GRUベースのモデルは、『Brother John』に見られる四部構造のような複雑なリズム的パターンを効果的に学習・再現できており、これは局所的マルコフモデルでは捉えきれない。
モデルは、繰り返しモチーフや一時的な調性移動といった認識可能な構造的要素を有する、整合的で音楽的に快適と感じられる新規のメロディを生成した。
メロディ継続タスクにおいて、モデルは入力の初期ノートのリズム的・調性的特徴を保持したバリエーションを生成し、トニックとドミナント領域の交互に現れる構造を再現した。
ホールドアウトテストデータにおける尤度が高く、同様のスタイルの未学習メロディへの一般化能力が優れていることが示された。
明示的な時間 signatures のモデル化がなくても、モデルは一貫性のあるメトリカル構造と調性的整合性を持つ完全な楽曲を自律的に生成できた。
モデルは、ルールやガイドラインなしに、生データからのみ学習し、繰り返しパターンやフレーズレベルのcadenceといった階層的音楽的構造を学習・再現する能力を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。