QUICK REVIEW

[논문 리뷰] Simple and Controllable Music Generation

Jade Copet, Felix Kreuk|arXiv (Cornell University)|2023. 06. 08.

Music and Audio Processing인용 수 64

한 줄 요약

MusicGen은 텍스트나 멜로디를 조건으로 interleaved EnCodec 토큰 스트림을 사용하여 고품질의 모노 및 스테레오 음악을 생성하는 단일 단계 자동회귀 변환기로, MusicCaps에서 기저선보다 우수합니다.

ABSTRACT

We tackle the task of conditional music generation. We introduce MusicGen, a single Language Model (LM) that operates over several streams of compressed discrete music representation, i.e., tokens. Unlike prior work, MusicGen is comprised of a single-stage transformer LM together with efficient token interleaving patterns, which eliminates the need for cascading several models, e.g., hierarchically or upsampling. Following this approach, we demonstrate how MusicGen can generate high-quality samples, both mono and stereo, while being conditioned on textual description or melodic features, allowing better controls over the generated output. We conduct extensive empirical evaluation, considering both automatic and human studies, showing the proposed approach is superior to the evaluated baselines on a standard text-to-music benchmark. Through ablation studies, we shed light over the importance of each of the components comprising MusicGen. Music samples, code, and models are available at https://github.com/facebookresearch/audiocraft

연구 동기 및 목표

조건부 음악 생성의 필요성과 제어 가능한 고충실도 출력의 필요성을 시사합니다.
다중 스트림의 이산 오디오 토큰에 대한 간단한 단일 단계 LM을 제안합니다.
병렬 토큰 스트림을 효율적으로 모델링하기 위한 코드북 인터리빙 패턴을 도입합니다.
생성 제어 가능성을 높이기 위한 텍스트 및 멜로디 컨디셔닝을 활성화합니다.
추가 계산 비용 없이 스테레오 확장을 시연하고 광범위한 평가를 수행합니다.

제안 방법

EnCodec를 사용하여 각 시간 단계마다 오디오를 다중 이산 코드북으로 토큰화합니다.
패턴 기반 병렬화를 통한 인터리브드 코드북 스트림에서 단일 자동회귀 트랜스포머를 학습합니다.
자기회귀 의존성을 제어하기 위한 코드북 인터리빙 패턴(정확 및 부정확)을 도입합니다.
텍스트 인코딩(T5/FLAN-T5/CLAP) 또는 비지도 멜로디(chromagram with bottleneck)에 의한 조건 부여합니다.
적응된 인터리빙 패턴으로 좌/우 채널을 처리하여 스테레오 확장을 제공합니다.
코드북 패턴, 모델 크기 및 컨디셔닝 전략을 연구하기 위한 병치실험(ablation)을 수행합니다.

실험 결과

연구 질문

RQ1인터리브드 오디오 토큰에 대한 단일 단계 트랜스포머가 텍스트-음악 생성에서 다단계 기준선과 대등하거나 상회할 수 있는가?
RQ2다른 코드북 인터리빙 패턴이 생성 품질과 제어 가능성에 어떤 영향을 미치는가?
RQ3멜로디(크로마그램) 컨디셔닝이 품질 손실 없이 화성 구조와의 정렬을 개선하는가?
RQ4모델이 컴퓨트 증가 없이 스테레오 생성을 확장할 수 있는가?
RQ5어떤 텍스트 인코더와 컨디셔닝 전략이 고품질의 제어 가능한 음악 생성에 가장 잘 작용하는가?

주요 결과

모델	FAD_vgg↓	KL↓	CLAP_scr↑	Ovl↑	Rel↑
Riffusion	14.8	2.06	0.19	79.31 ± 1.37	74.20 ± 2.17
Mousai	7.5	1.59	0.23	76.11 ± 1.56	77.35 ± 1.72
MusicLM	4.0	-	-	80.51 ± 1.07	82.35 ± 1.36
Noise2Music	2.1	-	-	-	-
MusicGen w.o melody (300M)	3.1	1.28	0.31	78.43 ± 1.30	81.11 ± 1.31
MusicGen w.o melody (1.5B)	3.4	1.23	0.32	80.74 ± 1.17	83.70 ± 1.21
MusicGen w.o melody (3.3B)	3.8	1.22	0.31	84.81 ± 0.95	82.47 ± 1.25
MusicGen w. random melody (1.5B)	5.0	1.31	0.28	81.30 ± 1.29	81.98 ± 1.79

MusicGen은 MusicCaps에서 주관적 품질 및 텍스트 관련성 측면에서 baselines(Riffusion, Mousai, MusicLM, Noise2Music)보다 우수합니다.
크로마그램을 통한 멜로디 컨디셔닝은 멜로디 적합성 향상을 가져오며, 학습 및 테스트 시 크로마 컨디셔닝을 사용할 때 정렬에 이득이 있습니다.
스테레오 확장은 좌/우 채널을 처리하는 패턴의 차이가 미묘한 차이로 높은 품질의 스테레오 샘플을 제공합니다; 단일 모노로 다운믹스해도 품질이 유지됩니다.
코드북 인터리빙 패턴은 중요합니다: 패턴을 줄이면 객관적 지표가 향상되지만 비용이 증가하고, 지연 기반 패턴은 비용이 낮으면서도 강력한 성능을 제공합니다.
모델 크기가 객관적 지표를 향상시키며, 1.5B가 주관적 품질에 대해 종종 최적이고, 더 큰 모델이 텍스트 프롬프트를 더 잘 포착합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.