[논문 리뷰] Jukebox: A Generative Model for Music
Jukebox는 계층적 VQ-VAE와 자동회귀 트랜스포머를 도입하여 원시 오디오에서 노래를 포함한 고충실도 음악을 생성하고, 아티스트, 장르, 가사로 제어하며 분 단위의 일관성을 달성합니다.
We introduce Jukebox, a model that generates music with singing in the raw audio domain. We tackle the long context of raw audio using a multi-scale VQ-VAE to compress it to discrete codes, and modeling those using autoregressive Transformers. We show that the combined model at scale can generate high-fidelity and diverse songs with coherence up to multiple minutes. We can condition on artist and genre to steer the musical and vocal style, and on unaligned lyrics to make the singing more controllable. We are releasing thousands of non cherry-picked samples at https://jukebox.openai.com, along with model weights and code at https://github.com/openai/jukebox
연구 동기 및 목표
- 원시 오디오 음악 생성의 장기적 일관성 문제를 다룬다.
- 계층적 VQ-VAE를 사용해 원시 오디오를 이산 코드로 압축한다.
- 변환기(트랜스포머)를 사용해 이산 코드에 대한 자동회귀적 프라이어를 모델링한다.
- 컨디셔닝 신호(아티스트, 장르, 가사)로 제어 가능한 생성을 가능하게 한다.
- 다양한 장르와 가창 스타일에 걸친 생성 및 샘플/코드를 출시한다.
제안 방법
- 세 수준의 VQ-VAE가 44 kHz 오디오를 이산 코드로 압축하며 홉 길이는 8, 32, 128이고 코드북 크기는 2048이다.
- 확장 가능한 트랜스포머를 사용해 이산 코드에 대한 자동회귀 프라이어(상위 수준 및 업샘플러)를 학습한다.
- 메타데이터(아티스트, 장르, 타이밍)에 대해 프라이어를 조건화하고, 가사를 위한 인토이션 토큰에 주의(attention)를 갖춘 인코더–디코더 구조를 사용한다.
- 스펙트럴 손실과 무작위 재시작을 사용해 코드북 활용도 및 재구성 충실도를 개선한다.
- 각 압축 단계에서 정보를 최대한 보존하기 위해 수준별로 별도의 오토인코더를 학습한다.
- 상위 레벨 코드에 조건을 부여하고 점차 높은 레벨에서 낮은 레벨로 오디오를 재구성하는 업샘플러를 제공한다.
실험 결과
연구 질문
- RQ1단일 시스템이 장르에 상관없이 원시 오디오로 가창 포함된 다양하고 고충실도 음악을 생성할 수 있는가?
- RQ2,
주요 결과
- 모델은 록/힙합/재즈와 같은 장르에서 수분 이상에 걸친 일관성을 갖는 곡을 생성할 수 있다.
- 아티스트, 장르, 타이밍으로 조건화하면 엔트로피가 감소하고 스타일별 생성을 가능하게 한다; 가사 조건은 가창 출력을 가능하게 한다.
- 모델 용량을 증가시키고 44 kHz VQ-VAE와 대형 업샘플러를 사용하면 충실도와 가창의 가독성이 향상되지만 가사를 조건화하지 않으면 인식 가능한 단어의 가창은 여전히 어렵다.
- 샘플링 방식(선조사적, 창 창, 프라이드)으로 제어 가능한 생성 및 기존 오디오 구간에서의 연속 생성을 가능하게 한다.
- 이 접근 방식은 많은 샘플에서 일관된 화성 및 자연스러운 운율을 제공하며 재생성, 보완, 새로운 스타일/목소리에서 다양성과 참신성이 관찰된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.