Skip to main content
QUICK REVIEW

[論文レビュー] MIDI-LLaMA: An Instruction-Following Multimodal LLM for Symbolic Music Understanding

Meng Yang, Jon McCormack|arXiv (Cornell University)|Jan 29, 2026
Music and Audio Processing被引用数 0
ひとこと要約

MIDI-LLaMA は MusicBERT MIDI 埋め込みを Llama-3-8B に整列させる二段階トレーニングパイプラインで、記号楽曲の理解と指示従順性を向上させるマルチモーダル LLM を構築。質問応答と音楽キャプション生成でテキストのみの ABC 符号ベースラインを上回る。

ABSTRACT

Recent advances in multimodal large language models (MLLM) for audio music have demonstrated strong capabilities in music understanding, yet symbolic music, a fundamental representation of musical structure, remains unexplored. In this work, we introduce MIDI-LLaMA, the first instruction-following MLLM for symbolic music understanding. Our approach aligns the MIDI encoder MusicBERT and Llama-3-8B via a two-stage pipeline comprising feature alignment and instruction tuning. To support training, we design a scalable annotation pipeline that annotates GiantMIDI-Piano with fine-grained metadata, resulting in a MIDI-text dataset. Compared with the baseline trained on converting MIDI into ABC notation under the same instruction-tuning procedure, MIDI-LLaMA substantially outperforms in captioning and semantic alignment in question answering. Human evaluation further confirms the advantages of MIDI-LLaMA in music understanding, emotion recognition, creativity, and overall preference. These findings demonstrate that incorporating symbolic music into large language models enhances their capacity for musical understanding.

研究の動機と目的

  • 多様な記号楽曲–テキストデータの不足を解消する大規模な記号楽曲–テキストデータセットを作成する。
  • トレーニング可能な射影を介して記号 MIDI 埋め込みと言語モデルを統合するエンドツーエンドのアーキテクチャを開発する。
  • 記号楽曲の埋め込みがテキストのみのベースラインより理解、感情認識、キャプション生成を改善することを示す。
  • 音楽理解と感情表現の改善を検証する人間評価を提供する。

提案手法

  • MusicBERT を MIDI エンコーダとして、Llama-3-8B を言語バックボーンとして用いる。
  • 二段階トレーニングパイプラインを導入する:まず命令チューニングデータ上で射影層を介して MIDI 埋め込みを LLM と整列させる。次に LoRA を用いて命令チューニングを行い、MIDI エンコーダは凍結のままにする。
  • GPT-4o由来のメタデータと手動検証を用いて GiantMIDI-Piano に注釈を付け、大規模な記号楽曲–文本データセットを作成し、ジャンル、スタイル、背景、表現意図、感情ラベルを生成する。
  • 作品を20秒クリップに分割し、29,409 クリップと約2.3 百万の Q&A ペアを作成して命令チューニングを行う。
  • 記号 MIDI 埋め込みの価値を分離するために、テキストのみ ABC-LLaMA ベースラインと MIDI-LLaMA を比較する。
  • BLEU、METEOR、ROUGE-L、BERTScore を用いた QA および音楽キャプション生成タスクで評価し、キャプション品質と感情表現の人間評価を補足する。

実験結果

リサーチクエスチョン

  • RQ1記号 MIDI 埋め込みを LLM に整列させることで、記号楽曲の理解を ABC 符号表現を超えて改善できるか(QA とキャプション生成で)?
  • RQ2二段階整列と凍結された MIDI エンコーダでの命令チューニングは、下流の記号楽曲タスクにどのような影響を与えるか?
  • RQ3自動化された、GPT支援の注釈は記号楽曲の命令チューニングのための信頼できるスケーラブルなデータを提供するか?
  • RQ4人間の判断は MIDI-LLaMA のキャプションをテキストのみのベースラインと比較して、音楽理解と感情把握の点でどう differs するか?

主な発見

BLEU (B-U↑)METEOR (M-R↑)ROUGE-L (R-L↑)BERTScore (BERT-S↑)
0.00040.01010.01130.6077
0.00320.02110.01530.4408
0.23520.27920.53950.8529
0.20010.23440.54860.9519
0.04670.18260.14120.8335
0.05190.19100.14150.8409
0.15920.29190.26070.8536
0.25660.37970.42650.9142
  • MIDI-LLaMA は音楽キャプション生成で BLEU、METEOR、ROUGE-L、BERTScore の指標で ABC-LLaMA ベースラインを上回る。
  • 質問応答では MIDI-LLaMA が ROUGE-L および BERTScore がより高く、意味的整合性がより良いことを示す一方、表面的な語彙指標では一部ケースで ABC ベースラインを優位にする場合がある。
  • 記号楽曲の整列なしのゼロショット LLaMA ベースラインは性能が低く、記号楽曲埋め込みの統合の必要性を裏付ける。
  • 人間の評価者は MIDI-LLaMA のキャプションを音楽理解と感情認識の点で好み、創造性も高く評価した。
  • データセットと注釈パイプラインは高品質な音楽–文本ペアを生み出し、カテゴリタグの受理率は 89%、記述的注釈の受理率は 93% である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。