QUICK REVIEW

[論文レビュー] MIDI-LLaMA: An Instruction-Following Multimodal LLM for Symbolic Music Understanding

Meng Yang, Jon McCormack|arXiv (Cornell University)|Jan 29, 2026

Music and Audio Processing被引用数 0

ひとこと要約

MIDI-LLaMA は MusicBERT MIDI 埋め込みを Llama-3-8B に整列させる二段階トレーニングパイプラインで、記号楽曲の理解と指示従順性を向上させるマルチモーダル LLM を構築。質問応答と音楽キャプション生成でテキストのみの ABC 符号ベースラインを上回る。

ABSTRACT

Recent advances in multimodal large language models (MLLM) for audio music have demonstrated strong capabilities in music understanding, yet symbolic music, a fundamental representation of musical structure, remains unexplored. In this work, we introduce MIDI-LLaMA, the first instruction-following MLLM for symbolic music understanding. Our approach aligns the MIDI encoder MusicBERT and Llama-3-8B via a two-stage pipeline comprising feature alignment and instruction tuning. To support training, we design a scalable annotation pipeline that annotates GiantMIDI-Piano with fine-grained metadata, resulting in a MIDI-text dataset. Compared with the baseline trained on converting MIDI into ABC notation under the same instruction-tuning procedure, MIDI-LLaMA substantially outperforms in captioning and semantic alignment in question answering. Human evaluation further confirms the advantages of MIDI-LLaMA in music understanding, emotion recognition, creativity, and overall preference. These findings demonstrate that incorporating symbolic music into large language models enhances their capacity for musical understanding.

研究の動機と目的

多様な記号楽曲–テキストデータの不足を解消する大規模な記号楽曲–テキストデータセットを作成する。
トレーニング可能な射影を介して記号 MIDI 埋め込みと言語モデルを統合するエンドツーエンドのアーキテクチャを開発する。
記号楽曲の埋め込みがテキストのみのベースラインより理解、感情認識、キャプション生成を改善することを示す。
音楽理解と感情表現の改善を検証する人間評価を提供する。

提案手法

MusicBERT を MIDI エンコーダとして、Llama-3-8B を言語バックボーンとして用いる。
二段階トレーニングパイプラインを導入する：まず命令チューニングデータ上で射影層を介して MIDI 埋め込みを LLM と整列させる。次に LoRA を用いて命令チューニングを行い、MIDI エンコーダは凍結のままにする。
GPT-4o由来のメタデータと手動検証を用いて GiantMIDI-Piano に注釈を付け、大規模な記号楽曲–文本データセットを作成し、ジャンル、スタイル、背景、表現意図、感情ラベルを生成する。
作品を20秒クリップに分割し、29,409 クリップと約2.3 百万の Q&A ペアを作成して命令チューニングを行う。
記号 MIDI 埋め込みの価値を分離するために、テキストのみ ABC-LLaMA ベースラインと MIDI-LLaMA を比較する。
BLEU、METEOR、ROUGE-L、BERTScore を用いた QA および音楽キャプション生成タスクで評価し、キャプション品質と感情表現の人間評価を補足する。

実験結果

リサーチクエスチョン

RQ1記号 MIDI 埋め込みを LLM に整列させることで、記号楽曲の理解を ABC 符号表現を超えて改善できるか（QA とキャプション生成で）？
RQ2二段階整列と凍結された MIDI エンコーダでの命令チューニングは、下流の記号楽曲タスクにどのような影響を与えるか？
RQ3自動化された、GPT支援の注釈は記号楽曲の命令チューニングのための信頼できるスケーラブルなデータを提供するか？
RQ4人間の判断は MIDI-LLaMA のキャプションをテキストのみのベースラインと比較して、音楽理解と感情把握の点でどう differs するか？

主な発見

BLEU (B-U↑)	METEOR (M-R↑)	ROUGE-L (R-L↑)	BERTScore (BERT-S↑)
0.0004	0.0101	0.0113	0.6077
0.0032	0.0211	0.0153	0.4408
0.2352	0.2792	0.5395	0.8529
0.2001	0.2344	0.5486	0.9519
0.0467	0.1826	0.1412	0.8335
0.0519	0.1910	0.1415	0.8409
0.1592	0.2919	0.2607	0.8536
0.2566	0.3797	0.4265	0.9142

MIDI-LLaMA は音楽キャプション生成で BLEU、METEOR、ROUGE-L、BERTScore の指標で ABC-LLaMA ベースラインを上回る。
質問応答では MIDI-LLaMA が ROUGE-L および BERTScore がより高く、意味的整合性がより良いことを示す一方、表面的な語彙指標では一部ケースで ABC ベースラインを優位にする場合がある。
記号楽曲の整列なしのゼロショット LLaMA ベースラインは性能が低く、記号楽曲埋め込みの統合の必要性を裏付ける。
人間の評価者は MIDI-LLaMA のキャプションを音楽理解と感情認識の点で好み、創造性も高く評価した。
データセットと注釈パイプラインは高品質な音楽–文本ペアを生み出し、カテゴリタグの受理率は 89%、記述的注釈の受理率は 93% である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。