QUICK REVIEW

[논문 리뷰] MuChoMusic dataset

Weck, Benno, Timo I. Denk|arXiv (Cornell University)|2023. 01. 26.

Music and Audio Processing인용 수 180

한 줄 요약

MusicLM은 텍스트 기술로 24 kHz의 고품질 음악을 생성하고, 멜로디 컨디셔닝을 지원하며, 평가를 위한 MusicCaps(5.5k 음악-텍스트 페어)를 도입합니다.

ABSTRACT

MuChoMusic: Evaluating Music Understanding in Multimodal Audio-Language Models MuChoMusic is a benchmark designed to evaluate music understanding in multimodal language models focused on audio. It includes 1,187 multiple-choice questions validated by human annotators, based on 644 music tracks from two publicly available music datasets. These questions cover a wide variety of genres and assess knowledge and reasoning across several musical concepts and their cultural and functional contexts. The benchmark provides a holistic evaluation of five open-source models, revealing challenges such as over-reliance on the language modality and highlighting the need for better multimodal integration. Note on Audio Files This dataset comes without audio files. The audio files can be downloaded from two datasets: SongDescriberDataset (SDD) and MusicCaps. Please see the code repository for more information on how to download the audio. Citation If you use this dataset, please cite our paper: @inproceedings{weck2024muchomusic, title={MuChoMusic: Evaluating Music Understanding in Multimodal Audio-Language Models}, author={Weck, Benno and Manco, Ilaria and Benetos, Emmanouil and Quinton, Elio and Fazekas, György and Bogdanov, Dmitry}, booktitle = {Proceedings of the 25th International Society for Music Information Retrieval Conference (ISMIR)}, year={2024} }

연구 동기 및 목표

설명 텍스트에서 고품질의 긴 형식 음악 생성을 동기부여합니다.
라벨이 없는 오디오 데이터로 학습하기 위해 공유 음악-텍스트 임베딩 공간을 활용하여 텍스트-음악 생성을 강건하게 합니다.
계층적 토큰 기반 생성 프레임워크를 통해 장기적 일관성과 충실도를 입증합니다.
텍스트-음악 시스템 평가를 위한 고품질의 전문가 주석 벤치마크(MusicCaps)를 제공합니다.

제안 방법

텍스트 조건 음악 생성을 위해 AudioLM 위에 구축된 계층적 시퀀스-투-시퀀스 모델을 사용합니다.
오디오를 이산 토큰으로 표현합니다: SoundStream의 음향 토큰, w2v-BERT의 의미 토큰, MuLan 유래 컨디셔닝 토큰.
MuLan 오디오 토큰에 조건부로 자동회귀적으로 의미 및 음향 단계를 훈련하고, 추론 시 컨디셔닝으로 MuLan 텍스트 임베딩을 사용합니다.
멜로디(오디오 기반)로 컨디셔닝을 extend하고 생성 창을 롤링하여 장생성을 가능하게 합니다.
장기 구조와 오디오 충실도 간 균형을 맞추기 위해 세 단계 파이프라인(의미 모델링, 거친 음향 모델링, 미세 음향 모델링)을 활용합니다.

실험 결과

연구 질문

RQ1MusicLM이 복잡한 텍스트 프롬프트에 충실한 긴(분 단위의) 음악 시퀀스를 생성할 수 있는가?
RQ2MusicLM이 오디오 품질과 텍스트 캡션의 일치성에서 baselines(Mubert, Riffusion)와 어떻게 비교되는가?
RQ3의미 토큰과 음향 토큰을 분리하는 것이 텍스트 충실도와 장기적 일관성에 어떤 영향을 미치는가?
RQ4멜로디 기반 컨디셔닝을 추가하면 텍스트 설명을 존중하면서 목표 멜로디에의 일치를 개선하는가?

주요 결과

모델	FAD_Trill ↓	FAD_VGG ↓	KLD ↓	MCC ↑	승 ↑
Riffusion	0.76	13.4	1.19	0.34	158
Mubert	0.45	9.6	1.58	0.32	97
MusicLM	0.44	4.0	1.01	0.51	312

MusicLM은 baselines보다 충실도와 텍스트 충실도 측면에서 더 높으며, FAD_Trill=0.44, FAD_VGG=4.0, KLD=1.01, MCC=0.51, 그리고 312명의 인간 평가 우위를 얻었다.
MusicCaps(5.5k 클립)는 엄격한 평가를 위한 전문가 작성 음악 캡션을 제공하고 공개합니다.
의미 토큰 컨디셔닝은 텍스트 설명에 대한 충실도를 개선하고 장기 구조를 보존합니다.
멜로디-조건 생성은 입력 멜로디를 따르면서 텍스트 프롬프트를 준수하게 만듭니다.
수 분에 걸친 장기 생성 능력이 시연되었으며, 모델은 캡션 간 스토리 모드 전환을 수행할 수 있습니다.
암기 분석은 정확한 암기가 거의 없고, 제어된 프롬프트 하에서 제한된 근사 매치를 보입니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.