Skip to main content
QUICK REVIEW

[논문 리뷰] MIDI-LLaMA: An Instruction-Following Multimodal LLM for Symbolic Music Understanding

Meng Yang, Jon McCormack|arXiv (Cornell University)|2026. 01. 29.
Music and Audio Processing인용 수 0
한 줄 요약

MIDI-LLaMA는 MusicBERT MIDI 임베딩을 Llama-3-8B와 두 단계 학습 파이프라인으로 align하여 기호 음악에 대한 명령어를 따르는 다중모달 LLM을 만들고, 질문 응답 및 음악 자막화에서 텍스트 전용 ABC 표기 baselines를 능가합니다.

ABSTRACT

Recent advances in multimodal large language models (MLLM) for audio music have demonstrated strong capabilities in music understanding, yet symbolic music, a fundamental representation of musical structure, remains unexplored. In this work, we introduce MIDI-LLaMA, the first instruction-following MLLM for symbolic music understanding. Our approach aligns the MIDI encoder MusicBERT and Llama-3-8B via a two-stage pipeline comprising feature alignment and instruction tuning. To support training, we design a scalable annotation pipeline that annotates GiantMIDI-Piano with fine-grained metadata, resulting in a MIDI-text dataset. Compared with the baseline trained on converting MIDI into ABC notation under the same instruction-tuning procedure, MIDI-LLaMA substantially outperforms in captioning and semantic alignment in question answering. Human evaluation further confirms the advantages of MIDI-LLaMA in music understanding, emotion recognition, creativity, and overall preference. These findings demonstrate that incorporating symbolic music into large language models enhances their capacity for musical understanding.

연구 동기 및 목표

  • 다중모달 LLM을 위한 기호 음악–텍스트 데이터의 부족 문제를 해결하기 위해 대규모 기호 음악–텍스트 데이터셋을 생성한다.
  • 교정 가능한 투영을 통해 기호 MIDI 임베딩과 언어 모델을 융합하는 엔드투엔드 아키텍처를 개발한다.
  • 기호 음악 임베딩이 텍스트 전용 기준선보다 이해도, 감정 인식, 자막화에서의 성능을 개선함을 입증한다.
  • 음악 이해 및 감정 표현의 개선을 검증하기 위한 인간 평가를 제공한다.

제안 방법

  • MusicBERT를 MIDI 인코더로, Llama-3-8B를 언어 백본으로 사용한다.
  • 두 단계 학습 파이프라인을 도입한다: 먼저 지시-튜닝 데이터에서 프로젝션 계층을 통해 MIDI 임베딩을 LLM과 정렬한 다음, MIDI 인코더를 고정한 상태에서 LoRA로 지시-튜닝을 수행한다.
  • GPT-4o 유래 메타데이터와 수동 확인으로 GiantMIDI-Piano를 주석 달아 기호 음악–텍스트 대형 데이터셋을 생성하여 장르, 스타일, 배경, 표현 의도, 감정 레이블을 산출한다.
  • 작품을 20초 클립으로 분할하여 29,409개의 클립과 약 2.3백만 개의 Q&A 쌍을 생성하여 지시 튜닝을 수행한다.
  • MIDI-LLaMA를 텍스트 전용 ABC-LLaMA-baseline과 비교하여 기호 MIDI 임베딩의 가치를 분리해 측정한다.
  • BLEU, METEOR, ROUGE-L 및 BERTScore로 QA 및 음악 자막화 작업을 평가하고, 자막 품질 및 감정 표현에 대한 인간 평가를 보완한다.

실험 결과

연구 질문

  • RQ1기호 MIDI 임베딩이 LLM과 정렬될 때, 텍스트 기반 표현(ABC 표기법)보다 음악적 이해를 향상시켜 QA 및 자막화 작업에서 더 나은 성능을 낼 수 있는가?
  • RQ2두 단계 정렬과 고정된 MIDI 인코더를 이용한 지시 튜닝이 다운스트림 기호 음악 작업에 어떤 영향을 주는가?
  • RQ3자동화된, GPT 보조 주석이 기호 음악에서의 지시-튜닝에 신뢰할 수 있고 확장 가능한 데이터를 제공하는가?
  • RQ4인간 평가에서 MIDI-LLaMA의 자막을 텍스트 전용 기준선에 비해 음악 이해와 감정 포착 면에서 어떻게 비교되는가?

주요 결과

BLEU (B-U↑)METEOR (M-R↑)ROUGE-L (R-L↑)BERTScore (BERT-S↑)
0.00040.01010.01130.6077
0.00320.02110.01530.4408
0.23520.27920.53950.8529
0.20010.23440.54860.9519
0.04670.18260.14120.8335
0.05190.19100.14150.8409
0.15920.29190.26070.8536
0.25660.37970.42650.9142
  • MIDI-LLaMA는 음악 자막화에서 BLEU, METEOR, ROUGE-L 및 BERTScore 지표 모두에서 ABC-LLaMA 기준선을 능가한다.
  • 질문 응답에서 MIDI-LLaMA는 ROUGE-L 및 BERTScore가 더 강력하여 의미적 정렬이 더 잘 이루어졌음을 시사하지만, 표면적 어휘 지표는 경우에 따라 ABC 기준선이 더 유리할 수도 있다.
  • 시맨틱-음악 정렬이 없는 제로샷 LLaMA 기준선은 성능이 저조하여 기호-음악 임베딩 통합의 필요성을 검증한다.
  • 인간 평가자들은 음악 이해 및 감정 인식 측면에서 MIDI-LLaMA 자막을 선호했고 창의성도 우대되었다.
  • 데이터세트 및 주석 파이프라인은 높은 품질의 음악–텍스트 쌍을 생성하며, 범주 태그 수락률 89%, 서술적 주석 수락률 93%를 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.