QUICK REVIEW

[논문 리뷰] HeartMuLa: A Family of Open Sourced Music Foundation Models

Dongchao Yang, Yuxin Xie|arXiv (Cornell University)|2026. 01. 15.

Music and Audio Processing인용 수 0

한 줄 요약

HeartCLAP, HeartTranscriptor, HeartCodec, HeartMuLa를 포함한 음악 기초 모델의 오픈 소스 생태계를 제안하여 통합 음악 이해, 토큰화, 가사 인식 및 제어 가능한 장편 생성. 7B 매개변수까지의 확장성과 학술 자원 중심 파이프라인의 재현성을 시연합니다.

ABSTRACT

We present a family of open-source Music Foundation Models designed to advance large-scale music understanding and generation across diverse tasks and modalities. Our framework consists of four major components: (1) HeartCLAP, an audio-text alignment model; (2) HeartTranscriptor, a robust lyric recognition model optimized for real-world music scenarios; and (3) HeartCodec, a low-frame-rate (12.5 Hz) yet high-fidelity music codec tokenizer that captures long-range musical structure while preserving fine-grained acoustic details and enabling efficient autoregressive modeling; (4) HeartMuLa, an LLM-based song generation model capable of synthesizing high-fidelity music under rich, user-controllable conditions (e.g., textual style descriptions, lyrics, and reference audio). In addition, it provides two specialized modes: (i) fine-grained musical attribute control, which allows users to specify the style of different song sections (e.g., intro, verse, chorus) using natural language prompts; and (ii) short, engaging music generation, which is suitable as background music for short videos. Lastly, HeartMuLa improves significantly when scaled to 7B parameters. For the first time, we show that a Suno-level, commercial-grade system can be reproduced using academic-scale data and GPU resources. We expect these foundation models to serve as strong baselines for future research and to facilitate practical applications in multimodal content production.

연구 동기 및 목표

다중 모달리티에서의 대규모 음악 이해 및 생성을 오픈 소스 프레임워크로 발전시키는 것.
오디오-텍스트 정렬, 가사 인식, 음악 토큰화, 조건부 곡 생성의 단일 생태계로 통합하는 것.
저프레임 레이트이면서 고충실도인 음악 코덱 토크나이저를 도입하여 장편 생성을 가능하게 하는 것.
섹션별 스타일 프롬프트 및 짧은 형식의 백그라운드 음악 모드를 포함한 미세 조정 가능한 세밀한 생성 기능을 Enable하는 것.
학술 하드웨어 및 데이터셋에서 확장 가능한 성능과 재현성을 입증하는 것.

제안 방법

오디오-텍스트 정렬을 위한 HeartCLAP를 도입하여 공유 음악 의미 체계 임베딩 공간을 구축하는 것.
복잡한 음악 신호에 맞춘 견고한 가사 인식을 위해 HeartTranscriptor를 개발하는 것.
다중 수준의 오디오 표현과 RVQ를 활용한 저프레임 레이트(12.5 Hz)이면서 고충실도 토크나이저로서 HeartCodec를 설계하는 것, 이를 통해 효율적인 자기회귀 모델링을 가능하게 하는 것.
가사, 스타일 태그, 참조 오디오를 입력으로 받아 길이가 최대 6분에 이르는 장편 음악을 미세 조정 가능한 제어로 생성하는 LLM 기반 곡 생성기인 HeartMuLa를 제안하는 것.
HeartMuLa와 HeartCodec에 대해 워밍업, 사전 학습, 지도 파인튜닝, 강화 학습을 결합한 4단계의 점진적 학습 패러다임을 구현하는 것.
전역 변환기(코스 구조)와 지역 변환기(프레임 내 디테일)로 구성된 계층적 생성을 채택하는 것.

실험 결과

연구 질문

RQ1오픈 소스 음악 기초 모델 모음이 학술 규모의 데이터와 GPU로 상용급 성능을 재현할 수 있는가?
RQ2다중 수준의 오디오 표현을 길이가 긴 구조와 미세한 음향 디테일을 보존하는 저프레임 레이트 토크나이저로 어떻게 융합할 수 있는가?
RQ3대규모 생성 프레임워크에서 시 구간별 세밀한 음악 속성 제어를 자연어 프롬프트로 구현할 수 있는가?
RQ4점진적 학습 단계와 증류 기술이 장편 음악 생성 품질에 미치는 영향은 무엇인가?
RQ5HeartMuLa 시스템이 목표 및 주관적 품질 지표에서 기존의 음악 기초 모델과 어떻게 비교되는가?

주요 결과

HeartCodec는 다중 수준 표현과 RVQ를 이용한 12.5 Hz의 낮은 프레임 속도에서도 최첨단 재구성 품질을 달성한다.
Reflow 증류 및 SQ-Finetune 단계가 미적 요소 및 스타일 정렬을 포함한 다운스트림 음악 생성 지표를 향상시킨다.
HeartMuLa는 가사, 스타일 태그, 참조 오디오와 같은 제어 입력으로 최대 6분의 장편 생성을 지원한다.
전역 변환기와 지역 변환기로 구성된 계층적 생성을 통해 복잡한 음악 구조의 효율적이고 고충실도 합성을 가능하게 한다.
시스템은 목표 및 주관적 평가에서 벤치마크에 비해 보컬 충실도, 가독성, 음악 품질이 경쟁력 있음을 보여준다.
기본 가이드 스케일 1.25는 주관적 청취 테스트에서 자연스러움과 명료성의 균형을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.