[論文レビュー] POP909: A Pop-song Dataset for Music Arrangement Generation
POP909 は lead melodies およびオリジナル音源に合わせた 909 のプロフェッショナルなピアノ編曲(MIDI)を提供し、テンポ、ビート、キー、コード注釈を付与して、ピアノ伴奏およびクロスモーダル編曲研究を、ベースライン Transformer モデルを用いて可能にします。
Music arrangement generation is a subtask of automatic music generation, which involves reconstructing and re-conceptualizing a piece with new compositional techniques. Such a generation process inevitably requires reference from the original melody, chord progression, or other structural information. Despite some promising models for arrangement, they lack more refined data to achieve better evaluations and more practical results. In this paper, we propose POP909, a dataset which contains multiple versions of the piano arrangements of 909 popular songs created by professional musicians. The main body of the dataset contains the vocal melody, the lead instrument melody, and the piano accompaniment for each song in MIDI format, which are aligned to the original audio files. Furthermore, we provide the annotations of tempo, beat, key, and chords, where the tempo curves are hand-labeled and others are done by MIR algorithms. Finally, we conduct several baseline experiments with this dataset using standard deep music generation algorithms.
研究の動機と目的
- ポップソングの編曲生成タスクをサポートする高品質で時間整合のあるピアノ編曲データセットを提供する。
- lead melody に条件付けされた、音源(オーディオ)由来の再編成を含むピアノ伴奏生成を正確な監督注釈とともに可能にする。
- シンボリック音楽編曲とクロスモーダル生成のための深層学習モデルの評価と開発を促進する。
提案手法
- 原音とボーカルリードメロディーに整合した 909 件のプロフェッショナルなピアノ編曲を MIDI 形式で編成する。
- テンポ曲線を手作業で注釈し、MIR アルゴリズムを用いてビート、キー、コードラベルを抽出する。
- 高品質でスタイル一貫性のあるピアノ編曲を確保するため、二重チームによる編成とレビューのプロセスを採用する。
- 音符と伴奏の結合分布を学習する Transformer モデルを用いて、MIDI ライクなイベント系列として音楽を表現する。
- 相対的位置エンコーディングを持つ GPT-2 スタイルの Transformer を、ポリフォニック生成をモデル化する MIDI ライクなイベント語彙で訓練する。
- 推論時に MELODY と BRIDGE トラックを結合することで、メロディーを条件としたピアノ編曲生成を実現する。
実験結果
リサーチクエスチョン
- RQ1lead melody やオーディオ由来の編成に条件付けたピアノ伴奏生成を POP909 を用いてどのように学習できるか。
- RQ2POP909 を用いた象徴的編成タスクで、標準的な深層生成モデル(例えば Transformer)が達成する基準性能はどれくらいか。
- RQ3データセットは無条件の象徴的生成、表現力ある演奏再現、またはクロスモーダル編成タスクをサポートするか。
主な発見
| Train Loss | Train Accuracy | Test Loss | Test Accuracy |
|---|---|---|---|
| 2.08978 | 0.62021 | 2.38122 | 0.54529 |
- データセットは約 60 時間分の編成を、1950年代から約 2010 年までの 909 曲にわたり、各ファイルに三つの MIDI トラック(MELODY、BRIDGE、PIANO)が音源に整列して含まれている。
- テンポ曲線は手動でラベリングされており、ビート、キー、コード注釈が提供されている(ビートとコードは MIDI/音源を用いた MIR 手法から取得)。
- 二重チームによる品質管理により、編成タスクに適した高品質でスタイル一貫性のあるピアノ編曲が得られる。
- MIDI ライクなイベント表現に対するベースラインの Transformer 実験は、訓練損失が 2.08978(訓練)、2.38122(テスト)、精度が 0.62021(訓練)、0.54529(テスト)であった。
- メロディーを条件とした条件付きのピアノ編曲生成が、和声関係とリズムの一貫性を示し、Task 1 および Task 2 におけるデータセットの有用性を示している。
- データセットは編成生成とクロスモーダル生成(例:音声からピアノへの還元)の両方をサポートし、編成に焦点を当てた研究に対して従来のデータセットよりも豊富な資源となる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。