QUICK REVIEW

[論文レビュー] Pop Music Transformer: Generating Music with Rhythm and Harmony

Yu-Siang Huang, Yi‐Hsuan Yang|arXiv (Cornell University)|Feb 1, 2020

Music and Audio Processing参考文献 15被引用数 27

ひとこと要約

この論文では、拍、小節、フレーズといった明示的なメトリック構造を含む新しいデータ表現「Pop Music Transformer」を提案する。これにより、変換器モデルが、より優れたリズム的・和声的整合性を持つポップ・ピアノ音楽を生成できるようになった。階層的なタイミングと和声的文脈を入力に埋め込むことで、標準の変換器よりも構造的で表現的な作品が得られる。

ABSTRACT

A great number of deep learning based models have been recently proposed for automatic music composition. Among these models, the Transformer stands out as a prominent approach for generating expressive classical piano performance with a coherent structure of up to one minute. The model is powerful in that it learns abstractions of data on its own, without much human-imposed domain knowledge or constraints. In contrast with this general approach, this paper shows that Transformers can do even better for music modeling, when we improve the way a musical score is converted into the data fed to a Transformer model. In particular, we seek to impose a metrical structure in the input data, so that Transformers can be more easily aware of the beat-bar-phrase hierarchical structure in music. The new data representation maintains the flexibility of local tempo changes, and provides hurdles to control the rhythmic and harmonic structure of music. With this approach, we build a Pop Music Transformer that composes Pop piano music with better rhythmic structure than existing Transformer models.

研究の動機と目的

入力表現にメトリック構造（拍、小節、フレーズ）を組み込むことで、変換器ベースの音楽生成を改善すること。
手動で設計された制約に依存せずに、変換器がリズム的・和声的パターンをより効果的に学習できるようにすること。
局所的なテンポ変化を維持しつつ、生成されるポップ音楽の構造的整合性を高めること。
構造的な入力表現が、生成音楽における優れたリズム的・和声的組織をもたらすことを実証すること。

提案手法

入力シーケンスに拍、小節、フレーズの境界を明示的にマークする、変更されたトークン化方式を採用する。
順序的な位置ではなく、階層的なメトリック構造を反映する位置埋め込みを用いて、楽譜を符号化する。
和声的文脈（コード進行）を追加のトークン特徴として統合し、和声の一貫性を高める。
標準の変換器アーキテクチャを採用するが、入力トークンにメトリックおよび和声的文脈を強化して供給する。
局所的なテンポ変更に対応するため、拍の位置を動的に調整しながらも構造的認識を保持する。
メロディと和声の両方の損失関数を最適化して、ポップ・ピアノ音楽のデータセット上で学習を実施する。

実験結果

リサーチクエスチョン

RQ1入力表現に明示的なメトリック構造を組み込むことで、変換器ベースの音楽生成におけるリズム的整合性が向上するか？
RQ2和声的文脈を統合することで、生成されるポップ音楽の構造的質はどのように変化するか？
RQ3階層的なタイミング表現は、AIが生成するピアノ音楽の表現性と整合性をどの程度高められるか？
RQ4構造的な入力表現により、標準モデルと比較して、より優れたフレーズ構造やcadence構造を持つ音楽を変換器が生成できるか？

主な発見

Pop Music Transformerは、標準の変換器モデルと比較して、著しく改善されたリズム的構造を持つ音楽を生成した。
モデルは局所的なテンポ変化を維持しつつも、強いメトリック認識を保ったままだった。
入力表現に明示的なコード進行統合のおかげで、和声の一貫性が向上した。
モデルはより整合性のある音楽的フレーズとカデンツを生成し、より良い構造的理解を示した。
人間の評価者は、生成された音楽がより表現的で、ポップ・ピアノ音楽のスタイルに整合的であると評価した。
追加のアーキテクチャ的変更なしに、ベースラインの変換器を上回る構造的整合性を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。