QUICK REVIEW

[論文レビュー] HeartMuLa: A Family of Open Sourced Music Foundation Models

Dongchao Yang, Yuxin Xie|arXiv (Cornell University)|Jan 15, 2026

Music and Audio Processing被引用数 0

ひとこと要約

オープンソースのMusic Foundation Modelsエコシステムを提案。HeartCLAP、HeartTranscriptor、HeartCodec、HeartMuLaを含み、統一的な音楽理解・トークン化・歌詞認識・長尺生成の制御を実現。7Bパラメータへ拡張性を示し、学術リソースに焦点を当てた再現性のあるパイプラインをデモ。

ABSTRACT

We present a family of open-source Music Foundation Models designed to advance large-scale music understanding and generation across diverse tasks and modalities. Our framework consists of four major components: (1) HeartCLAP, an audio-text alignment model; (2) HeartTranscriptor, a robust lyric recognition model optimized for real-world music scenarios; and (3) HeartCodec, a low-frame-rate (12.5 Hz) yet high-fidelity music codec tokenizer that captures long-range musical structure while preserving fine-grained acoustic details and enabling efficient autoregressive modeling; (4) HeartMuLa, an LLM-based song generation model capable of synthesizing high-fidelity music under rich, user-controllable conditions (e.g., textual style descriptions, lyrics, and reference audio). In addition, it provides two specialized modes: (i) fine-grained musical attribute control, which allows users to specify the style of different song sections (e.g., intro, verse, chorus) using natural language prompts; and (ii) short, engaging music generation, which is suitable as background music for short videos. Lastly, HeartMuLa improves significantly when scaled to 7B parameters. For the first time, we show that a Suno-level, commercial-grade system can be reproduced using academic-scale data and GPU resources. We expect these foundation models to serve as strong baselines for future research and to facilitate practical applications in multimodal content production.

研究の動機と目的

オープンソースフレームワークで多様なモダリティに跨る大規模な音楽理解と生成を進展させる。
音声-テキスト整列、歌詞認識、音楽トークン化、条件付き歌唱生成を単一エコシステム内で統一する。
長尺生成を可能にする低フレームレート・高忠実度の音楽コデックトークナイザを導入する。
セクション別スタイルプロンプトや短尺背景音楽モードなど、細粒度でユーザーが制御できる生成を可能にする。
学術ハードウェアとデータセットでの再現性とスケーラブルな性能を示す。

提案手法

音楽意味表現空間を共有するための音声-テキスト整列器としてHeartCLAPを導入する。
複雑な音楽信号に適した頑健な歌詞認識のためのHeartTranscriptorを開発する。
多層音声表現とRVQを用いた低フレームレート（12.5 Hz）かつ高忠実度のトークナイザとしてHeartCodecを設計する。
歌詞・スタイルタグ・参照音源を取り込み、最大六分の長尺音楽を細粒度の制御で生成するLLMベースの歌生成器HeartMuLaを提案する。
心MuLaとHeartCodecの前処理・事前学習・教師ありファインチューニング・強化学習を組み合わせた4段階の段階的学習パラダイムを実装する。
グローバルトランスフォーマとローカルトランスフォーマを階層的に用い、粗い構造と局所的詳細を分担する生成手法を採用する。

実験結果

リサーチクエスチョン

RQ1オープンソースの音楽ファンデーションモデル群は、学術規模のデータとGPUで商用レベルの再現性・性能を達成できるか。
RQ2長距離構造と微細な音響ディテールを保持する低フレームレートトークナイザへ、多層の音声表現をどのように融合するか。
RQ3大規模生成フレームワークにおいてセクションごとの楽曲属性を自然言語プロンプトで細かく制御できるか。
RQ4長尺音楽生成の品質に対する段階的学習と蒸留技術の影響はどうか。
RQ5HeartMuLaは客観的・主観的品質指標で既存の音楽ファンデーションモデルとどのように比較されるか。

主な発見

HeartCodecは多層表現とRVQを用いた低周波数12.5 Hzで最先端の再構成品質を実現。
リフロー蒸留とSQ-Finetune段階が下流の音楽生成指標を改善し、審美性とスタイル整合性を高める。
HeartMuLaは歌詞・スタイルタグ・参照音源などの制御入力を用い、最大六分の長尺生成をサポートする。
グローバルとローカルトランスフォーマによる階層的生成が、複雑な音楽構造の高忠実度合成を可能にする。
本システムは、客観・主観評価のいずれにおいて、ベースラインと比較して競争力のある歌唱忠実度・可聴性・音楽品質を示す。
デフォルトの指示スケール1.25は、主観的聴取テストにおいて自然さと発音のバランスを提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。