QUICK REVIEW

[論文レビュー] Simple and Controllable Music Generation

Jade Copet, Felix Kreuk|arXiv (Cornell University)|Jun 8, 2023

Music and Audio Processing被引用数 64

ひとこと要約

MusicGenは、テキストまたはメロディに条件付けられた高品質なモノラルおよびステレオ音楽を、相互に織り交ぜられたEnCodecトークンストリームを用いて生成する単段の自己回帰トランスフォーマを提示し、MusicCapsでベースラインを上回る。

ABSTRACT

We tackle the task of conditional music generation. We introduce MusicGen, a single Language Model (LM) that operates over several streams of compressed discrete music representation, i.e., tokens. Unlike prior work, MusicGen is comprised of a single-stage transformer LM together with efficient token interleaving patterns, which eliminates the need for cascading several models, e.g., hierarchically or upsampling. Following this approach, we demonstrate how MusicGen can generate high-quality samples, both mono and stereo, while being conditioned on textual description or melodic features, allowing better controls over the generated output. We conduct extensive empirical evaluation, considering both automatic and human studies, showing the proposed approach is superior to the evaluated baselines on a standard text-to-music benchmark. Through ablation studies, we shed light over the importance of each of the components comprising MusicGen. Music samples, code, and models are available at https://github.com/facebookresearch/audiocraft

研究の動機と目的

条件付き音楽生成の動機づけと、制御可能で高忠実度な出力の必要性。
離散音声トークンの複数ストリーム上における、シンプルで単段のLMを提案。
並列トークンストリームを効率的にモデル化するためのコードブック交互 patternsを導入。
生成の制御性を向上させるためにテキストとメロディの条件付けを有効化。
追加の計算コストなしでステレオ拡張を実証し、広範な評価を実施。

提案手法

EnCodecを用いて各時間ステップごとに音声を複数の離散コードブックへトークナイズする。
パターンベースの並列化を用いて、交互に織り交ぜられたコードブックストリーム上で単一の自己回帰トランスフォーマを訓練する。
自己回帰依存性を制御するためのコードブック交互パターン（正確と不正確）を導入。
生成をテキストエンコード（T5/FLAN-T5/CLAP）または教師なしメロディ（ボトルネック付きクロマグラム）で条件付け。
適応した交互パターンで左/右チャネルを処理し、ステレオ拡張を提供。
コードブックパターン、モデルサイズ、および条件付け戦略を研究するアブレーションを実施。

実験結果

リサーチクエスチョン

RQ1交互に混在したオーディオトークン上の単段トランスフォーマが、テキスト-to-音楽生成の多段ベースラインと同等かそれ以上を達成できるか？
RQ2異なるコードブック交互パターンは生成品質と制御性にどのような影響を与えるか？
RQ3メロディ（クロマグラム）条件付けは、品質を犠牲にすることなく調和構造への整合性を改善するか？
RQ4計算量を増やすことなく、モデルはステレオ生成にスケールできるか？
RQ5高品質で制御性の高い音楽生成を最も支援するテキストエンコーダと条件付け戦略はどれか？

主な発見

モデル	FAD_vgg↓	KL↓	CLAP_scr↑	Ovl↑	Rel↑
Riffusion	14.8	2.06	0.19	79.31 ± 1.37	74.20 ± 2.17
Mousai	7.5	1.59	0.23	76.11 ± 1.56	77.35 ± 1.72
MusicLM	4.0	-	-	80.51 ± 1.07	82.35 ± 1.36
Noise2Music	2.1	-	-	-	-
MusicGen w.o melody (300M)	3.1	1.28	0.31	78.43 ± 1.30	81.11 ± 1.31
MusicGen w.o melody (1.5B)	3.4	1.23	0.32	80.74 ± 1.17	83.70 ± 1.21
MusicGen w.o melody (3.3B)	3.8	1.22	0.31	84.81 ± 0.95	82.47 ± 1.25
MusicGen w. random melody (1.5B)	5.0	1.31	0.28	81.30 ± 1.29	81.98 ± 1.79

MusicGenはMusicCapsにおいて主観的品質とテキスト関連性でベースライン（Riffusion、Mousai、MusicLM、Noise2Music）を上回る。
クロマグラムによるメロディ条件付けはメロディの順守を改善し、訓練時およびテスト時にクロマ条件付けを使用すると整合性が向上する。
ステレオ拡張は高品質なステレオサンプルを生み、パターンはわずかに異なる。モノラルへダウンミックスしても品質を保持。
コードブック交互パターンは重要：フラット化は客観的指標を改善するがコストが高い。遅延ベースのパターンは低コストで強力な性能を提供。
モデルサイズは客観的指標を向上させ、1.5Bが主観的品質ではしばしば最適。大きなモデルはテキストプロンプトの捉えをより良くする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。