QUICK REVIEW

[論文レビュー] The Jazz Transformer on the Front Line: Exploring the Shortcomings of AI-composed Music through Quantitative Measures

Shih-Lun Wu, Yi‐Hsuan Yang|arXiv (Cornell University)|Aug 4, 2020

Music and Audio Processing参考文献 35被引用数 38

ひとこと要約

Jazz Transformer は Weimar Jazz Database のリードシートに Transformer-XL を適用し、生成を導く構造イベントを組み込み、新しい客観的指標と主観的な研究で欠点を評価し、人間の作曲とのギャップを明らかにする。

ABSTRACT

This paper presents the Jazz Transformer, a generative model that utilizes a neural sequence model called the Transformer-XL for modeling lead sheets of Jazz music. Moreover, the model endeavors to incorporate structural events present in the Weimar Jazz Database (WJazzD) for inducing structures in the generated music. While we are able to reduce the training loss to a low value, our listening test suggests however a clear gap between the average ratings of the generated and real compositions. We therefore go one step further and conduct a series of computational analysis of the generated compositions from different perspectives. This includes analyzing the statistics of the pitch class, grooving, and chord progression, assessing the structureness of the music with the help of the fitness scape plot, and evaluating the model's understanding of Jazz music through a MIREX-like continuation prediction task. Our work presents in an analytical manner why machine-generated music to date still falls short of the artwork of humanity, and sets some goals for future work on automatic composition to further pursue.

研究の動機と目的

複雑なジャズ特化データセット（WJazzD）を活用し、表面的な品質を超えたAIベースのジャズ作曲の探求を動機づける。
Transformer を用いてメロディ、ハーモニー、そして構造イベントを一緒にモデル化することを目指す。
主観的な聴取テストと客観指標のセットの両方を用いて生成音楽を評価し、失敗モードを特定する。

提案手法

長期文脈を扱うため Transformer-XL で Jazz Transformer をモデル化する。
音楽を、ノート、コード、リズム、そして WJazzD の構造イベント（Phrase、MLU、Part、Repetition）を含むイベントトークンの列として表現する。
コードをChord-Tone、Chord-Type、Chord-Slashに分解してトークンのスパース性を減らす。
2 つのバリアントを学習する：Model A（構造イベントなし）と Model B（全構造イベント付き）。
ジャズの短さを捉えるため、音符の持続時間を64分音符の倍数に量子化する。
訓練時にソロを転置してデータ拡張を行う。

実験結果

リサーチクエスチョン

RQ1Transformer ベースのモデルはメロディ、ハーモニー、構造的整合性を備えたジャズのリードシートを生成することを学べるか？
RQ2構造関連イベントはAI生成ジャズ音楽の品質とスケーラビリティを向上させるか？
RQ3どの客観的指標が、人間の作曲と比較してAI作曲ジャズの限界を最もよく示すか？
RQ4訓練中のモデル性能はどう進化し、特定の損失閾値を超えると過適合が生じるか？

主な発見

主観的聴取では、AI生成ジャズは全体的な品質と構造性の点で人間の作品に著しく遅れを取る。
Model B（構造イベント付き）は短期的な指標のいくつかで実データに最も近いことが多いが、訓練損失があまり低くなりすぎると性能は低下する。
客観的指標は、AI作品で不安定な音高の使用と長期的な反復の弱さを、特に長い時間スケールで示す。
Groovingパターンの類似性は、機械生成作品のリズムの一貫性の欠如を示す。
構造性指標はAI作品が実際のジャズに見られる長距離的反復構造を欠くことを示すが、構造イベントは短期的整合性を助ける。
MIREX様の継続予測精度は、両モデルとも損失が0.25付近でピークに達し、過学習より前に最適な学習が起きることを示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。