QUICK REVIEW

[논문 리뷰] MIDI-LLaMA: An Instruction-Following Multimodal LLM for Symbolic Music Understanding

Meng Yang, Jon McCormack|arXiv (Cornell University)|2026. 01. 29.

Music and Audio Processing인용 수 0

한 줄 요약

MIDI-LLaMA는 MusicBERT MIDI 임베딩을 Llama-3-8B와 두 단계 학습 파이프라인으로 align하여 기호 음악에 대한 명령어를 따르는 다중모달 LLM을 만들고, 질문 응답 및 음악 자막화에서 텍스트 전용 ABC 표기 baselines를 능가합니다.

ABSTRACT

Recent advances in multimodal large language models (MLLM) for audio music have demonstrated strong capabilities in music understanding, yet symbolic music, a fundamental representation of musical structure, remains unexplored. In this work, we introduce MIDI-LLaMA, the first instruction-following MLLM for symbolic music understanding. Our approach aligns the MIDI encoder MusicBERT and Llama-3-8B via a two-stage pipeline comprising feature alignment and instruction tuning. To support training, we design a scalable annotation pipeline that annotates GiantMIDI-Piano with fine-grained metadata, resulting in a MIDI-text dataset. Compared with the baseline trained on converting MIDI into ABC notation under the same instruction-tuning procedure, MIDI-LLaMA substantially outperforms in captioning and semantic alignment in question answering. Human evaluation further confirms the advantages of MIDI-LLaMA in music understanding, emotion recognition, creativity, and overall preference. These findings demonstrate that incorporating symbolic music into large language models enhances their capacity for musical understanding.

연구 동기 및 목표

다중모달 LLM을 위한 기호 음악–텍스트 데이터의 부족 문제를 해결하기 위해 대규모 기호 음악–텍스트 데이터셋을 생성한다.
교정 가능한 투영을 통해 기호 MIDI 임베딩과 언어 모델을 융합하는 엔드투엔드 아키텍처를 개발한다.
기호 음악 임베딩이 텍스트 전용 기준선보다 이해도, 감정 인식, 자막화에서의 성능을 개선함을 입증한다.
음악 이해 및 감정 표현의 개선을 검증하기 위한 인간 평가를 제공한다.

제안 방법

MusicBERT를 MIDI 인코더로, Llama-3-8B를 언어 백본으로 사용한다.
두 단계 학습 파이프라인을 도입한다: 먼저 지시-튜닝 데이터에서 프로젝션 계층을 통해 MIDI 임베딩을 LLM과 정렬한 다음, MIDI 인코더를 고정한 상태에서 LoRA로 지시-튜닝을 수행한다.
GPT-4o 유래 메타데이터와 수동 확인으로 GiantMIDI-Piano를 주석 달아 기호 음악–텍스트 대형 데이터셋을 생성하여 장르, 스타일, 배경, 표현 의도, 감정 레이블을 산출한다.
작품을 20초 클립으로 분할하여 29,409개의 클립과 약 2.3백만 개의 Q&A 쌍을 생성하여 지시 튜닝을 수행한다.
MIDI-LLaMA를 텍스트 전용 ABC-LLaMA-baseline과 비교하여 기호 MIDI 임베딩의 가치를 분리해 측정한다.
BLEU, METEOR, ROUGE-L 및 BERTScore로 QA 및 음악 자막화 작업을 평가하고, 자막 품질 및 감정 표현에 대한 인간 평가를 보완한다.

실험 결과

연구 질문

RQ1기호 MIDI 임베딩이 LLM과 정렬될 때, 텍스트 기반 표현(ABC 표기법)보다 음악적 이해를 향상시켜 QA 및 자막화 작업에서 더 나은 성능을 낼 수 있는가?
RQ2두 단계 정렬과 고정된 MIDI 인코더를 이용한 지시 튜닝이 다운스트림 기호 음악 작업에 어떤 영향을 주는가?
RQ3자동화된, GPT 보조 주석이 기호 음악에서의 지시-튜닝에 신뢰할 수 있고 확장 가능한 데이터를 제공하는가?
RQ4인간 평가에서 MIDI-LLaMA의 자막을 텍스트 전용 기준선에 비해 음악 이해와 감정 포착 면에서 어떻게 비교되는가?

주요 결과

BLEU (B-U↑)	METEOR (M-R↑)	ROUGE-L (R-L↑)	BERTScore (BERT-S↑)
0.0004	0.0101	0.0113	0.6077
0.0032	0.0211	0.0153	0.4408
0.2352	0.2792	0.5395	0.8529
0.2001	0.2344	0.5486	0.9519
0.0467	0.1826	0.1412	0.8335
0.0519	0.1910	0.1415	0.8409
0.1592	0.2919	0.2607	0.8536
0.2566	0.3797	0.4265	0.9142

MIDI-LLaMA는 음악 자막화에서 BLEU, METEOR, ROUGE-L 및 BERTScore 지표 모두에서 ABC-LLaMA 기준선을 능가한다.
질문 응답에서 MIDI-LLaMA는 ROUGE-L 및 BERTScore가 더 강력하여 의미적 정렬이 더 잘 이루어졌음을 시사하지만, 표면적 어휘 지표는 경우에 따라 ABC 기준선이 더 유리할 수도 있다.
시맨틱-음악 정렬이 없는 제로샷 LLaMA 기준선은 성능이 저조하여 기호-음악 임베딩 통합의 필요성을 검증한다.
인간 평가자들은 음악 이해 및 감정 인식 측면에서 MIDI-LLaMA 자막을 선호했고 창의성도 우대되었다.
데이터세트 및 주석 파이프라인은 높은 품질의 음악–텍스트 쌍을 생성하며, 범주 태그 수락률 89%, 서술적 주석 수락률 93%를 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.