QUICK REVIEW

[論文レビュー] Text-based LSTM networks for Automatic Music Composition

Keunwoo Choi, George Fazekas|arXiv (Cornell University)|Apr 18, 2016

Music and Audio Processing参考文献 12被引用数 75

ひとこと要約

本稿では、音楽のテキスト表現からジャズのコード進行やロックのドラムトラックを生成する、テキストベースのLSTMネットワークを提案している。ワードレベルRNNは音楽的に整合性のあるシーケンスを効果的に生成したが、文字レベルRNNはコード進行でのみ成功し、リズム構造の学習に失敗した。これは、複雑なリズム的・和声的構造を制御可能な多様性でモデリングするためのワードレベルモデリングの有効性を示している。

ABSTRACT

In this paper, we introduce new methods and discuss results of text-based LSTM (Long Short-Term Memory) networks for automatic music composition. The proposed network is designed to learn relationships within text documents that represent chord progressions and drum tracks in two case studies. In the experiments, word-RNNs (Recurrent Neural Networks) show good results for both cases, while character-based RNNs (char-RNNs) only succeed to learn chord progressions. The proposed system can be used for fully automatic composition or as semi-automatic systems that help humans to compose music by controlling a diversity parameter of the model.

研究の動機と目的

記号的または数値的な音楽符号化を用いずに、テキストベースのLSTMネットワークを用いた自動音楽作曲の可能性を検討すること。
文字ベースとワードベースのRNNを比較し、コードやドラムパターンのテキスト表現から音楽的シーケンスを学習する能力を評価すること。
LSTMがテキスト入力のみで音楽的シーケンスにおける長期依存関係をモデル化できるかどうかを評価すること。
出力の多様性を調整可能な、完全自動および準自動音楽作曲をサポートするシステムを開発すること。

提案手法

モデルは、音楽的イベントをテキスト形式で表した文字列や語のシーケンスを処理するため、長短期記憶（LSTM）ネットワークを用いる。
コード進行の場合は、'C:maj' や 'G:7' のような文字列としてコードを表現し、ネットワークはシーケンスの次のトークンを予測する。
ドラムトラックの場合は、キック、スネア、ハイハットなどのドラム部品の2値符号化が用いられ、16分音符ごとに9ビットのベクトルで表現され、バーマーカーとして'_BAR_'トークンが使用される。
両タスクにワードレベルRNNが用いられ、サンプリング時にソフトマックスの温度を調整する多様性制御パラメータαが導入される。
ネットワークは、MIDIファイルをテキストシーケンスに変換した大規模データセットを用いて、時間軸に沿った誤差逆伝播（back-propagation through time）で学習される。
システムは、過去のシーケンスに条件づけられた学習済み確率分布から逐次的にサンプリングすることで音楽を生成する。

実験結果

リサーチクエスチョン

RQ1テキストベースのLSTMネットワークは、コードのテキスト表現から、音楽的に整合性のあるコード進行を効果的に学習・生成できるか？
RQ2符号化が最小限で2値的である場合、文字レベルRNNは、ドラムトラックの複雑なリズム的パターンを成功裏にモデル化できるか？
RQ3異なる音楽ジャンルにおいて、音楽的整合性と構造的学習の観点から、ワードレベルモデリングと文字レベルモデリングの比較はどのように異なるか？
RQ4サンプリングプロセスにおける温度パラメータによって、生成音楽の多様性をどの程度制御できるか？
RQ5テキストのみの入力から、バーバウンダリーなどのグローバルな構造的パターンやリズム的一致性をモデルが学習できるか？

主な発見

ワードレベルRNNは、認識可能な和声的・リズム的構造を有する音楽的に整合性のあるジャズコード進行およびロックドラムトラックを効果的に生成した。
文字レベルRNNはコード進行でのみ成功し、ドラムトラックの構造的パターンを学習できなかった。これは、2値の0/1シーケンスの極端なスパarsityと長い時間的依存関係に起因すると考えられる。
モデルは一貫した8拍子のハイハットパターン、ビートでのスネア/キックの組み合わせ、および特に多様性の高い設定で、クラッシュシンバルやトムトムのフィルを生成する能力を学習した。
多様性パラメータαは、生成されたドラムトラックの複雑さを効果的に制御した：低値のαでは単純で繰り返しのあるパターンが得られ、高値のαではより複雑なフィルが生成された。
['_BAR_']トークンの導入により、特にワードレベルRNNにおいて、バーレベルの構造を学習する助けとなり、生成出力における一貫したバーデビジョンが確認された。
本システムは、ユーザーがαを調整することで出力の技術的複雑性を制御できる準自動作曲ツールとしての可能性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。