Skip to main content
QUICK REVIEW

[論文レビュー] Music transcription modelling and composition using deep learning

Bob L. Sturm, João Felipe Santos|arXiv (Cornell University)|Apr 29, 2016
Music and Audio Processing参考文献 33被引用数 78
ひとこと要約

本論文では、23,000件のケルト民謡音楽譜のデータセットを用いて学習された、深層LSTMネットワークを用いた深層学習フレームワークを提案する。このシステムは、音楽的に妥当で、スタイル的に一貫性のある譜面を生成し、作曲のためのアイデア生成や、厳密なスタイル的境界を超えた応用において実用性を示している。

ABSTRACT

We apply deep learning methods, specifically long short-term memory (LSTM) networks, to music transcription modelling and composition. We build and train LSTM networks using approximately 23,000 music transcriptions expressed with a high-level vocabulary (ABC notation), and use them to generate new transcriptions. Our practical aim is to create music transcription models useful in particular contexts of music composition. We present results from three perspectives: 1) at the population level, comparing descriptive statistics of the set of training transcriptions and generated transcriptions; 2) at the individual level, examining how a generated transcription reflects the conventions of a music practice in the training transcriptions (Celtic folk); 3) at the application level, using the system for idea generation in music composition. We make our datasets, software and sound examples open and available: \url{https://github.com/IraKorshunova/folk-rnn}.

研究の動機と目的

  • ケルト民謡音楽のスタイル的規範を反映した、音楽的に意味のある譜面を生成できる深層学習モデルの開発。
  • このようなモデルが、特にアイデア生成やスタイルの変異において、作曲のための実用的ツールとしてどのように機能するかの探求。
  • 再現可能性の研究とコミュニティ参加を支援するため、データセット、ソフトウェア、生成例をすべて公開すること。
  • モデルの性能を統計的評価に加え、実際の作曲文脈における専門家による音楽的判断や実用的評価を通しても評価すること。

提案手法

  • 23,000件のABC記法譜面データセット(thesession.orgより取得)を用い、3層の隠れ層(各層に512個のLSTMブロックを有する)を持つ深層LSTMネットワークを学習。
  • 2つの学習アプローチを実装:文字単位モデリング(直前の50文字を入力として次に来る文字を予測)とトークン単位モデリング(直前のトークンを入力として次に来る音楽的トークンを予測)。
  • 温度サンプリングを用いたシーケンス生成により、学習された音楽的シーケンスの確率分布から新しい譜面を生成。
  • 統計的比較、音楽的規範(例:繰り返し、メロディックなカーブ、構造)のスタイル分析、実際の作曲応用を通じて生成出力を評価。
  • モデルに非標準的な音楽的断片を入力として与え、その応答性と適応性を評価するため、非伝統的なフレーズで生成を開始。
  • GitHubを通じて、すべてのデータセット、学習済みモデル、サンプル出力を公開し、オープンかつ再現可能な研究とコミュニティフィードバックを促進。

実験結果

リサーチクエスチョン

  • RQ1生成された譜面の統計的性質は、学習データとどの程度一致しているか?
  • RQ2生成された譜面は、メロディックなカーブ、繰り返し、構造的進行といったケルト民謡音楽のスタイル的規範をどの程度反映しているか?
  • RQ3モデルは、音楽的に妥当で、新たな文脈に適応可能な新しいアイデアを生成する作曲の実用的ツールとして機能できるか?
  • RQ4モデルが、学習分布から逸脱した音楽的断片を入力とされた場合、どのように動作するか?
  • RQ5人間によるキュレーションと作曲家の干渉は、モデル出力を演奏可能でスタイル的に一貫性のある音楽へと変換する上で、どのような役割を果たすか?

主な発見

  • 生成された譜面は、ノートの持続時間、インターバル分布、リズム的構造において、学習データと強い統計的類似性を示している。
  • 「The Devil's in the Kitchen」と類似する譜面の例は、専門家による聴取評価で音楽的に妥当で、ほぼ「セッション用に準備完了」の水準と判断された。
  • 繰り返し、変化、メロディックなカーブといったスタイル的規範が、多様な出力において効果的に適用されており、音楽的文法の有効な学習が確認された。
  • 非標準的な音楽的断片を入力とした場合、モデルは新規で一貫性のある変形を生成し、スタイルの厳密な再現を超えた適応性を示した。
  • モデルは、作曲における意味のある創造的探求を可能にし、作曲家がスタイルの一貫性を保ちつつ、新たな音楽的方向性へとモデルを導けるようにした。
  • 人間によるキュレーションによりモデルの性能が向上した。これは、システムが音楽的に意味のある内容を生成できるものの、最終的な芸術的判断は作曲家の領域に留まることを確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。