QUICK REVIEW

[논문 리뷰] Fast Timing-Conditioned Latent Audio Diffusion

Zach Evans, CJ Carr|arXiv (Cornell University)|2024. 02. 07.

Music and Audio Processing인용 수 6

한 줄 요약

본 논문은 텍스트와 타이밍으로 조건화된 잠재 확산 모델 Stable Audio를 제시하여, 긴 형식의 가변 길이 44.1kHz 스테레오 오디오(최대 95초)를 A100 GPU에서 빠른 추론으로 생성하고, 프롬프트로부터 구조화된 음악과 스테레오 사운드 효과를 가능하게 한다.

ABSTRACT

Generating long-form 44.1kHz stereo audio from text prompts can be computationally demanding. Further, most previous works do not tackle that music and sound effects naturally vary in their duration. Our research focuses on the efficient generation of long-form, variable-length stereo music and sounds at 44.1kHz using text prompts with a generative model. Stable Audio is based on latent diffusion, with its latent defined by a fully-convolutional variational autoencoder. It is conditioned on text prompts as well as timing embeddings, allowing for fine control over both the content and length of the generated music and sounds. Stable Audio is capable of rendering stereo signals of up to 95 sec at 44.1kHz in 8 sec on an A100 GPU. Despite its compute efficiency and fast inference, it is one of the best in two public text-to-music and -audio benchmarks and, differently from state-of-the-art models, can generate music with structure and stereo sounds.

연구 동기 및 목표

텍스트 프롬프트로부터 44.1kHz의 긴 형식 가변 길이 스테레오 오디오를 효율적으로 생성하는 것을 목표로 한다.
타이밍 임베딩을 통해 콘텐츠와 지속 시간을 모두 제어할 수 있도록 한다.
스테레오 출력과 가변 길이를 지원하는 잠재 확산 프레임워크를 개발하고 평가한다.
긴 형식의 풀밴드 스테레오 오디오를 위한 새로운 평가 지표를 제안한다.
긴 형식 텍스트-음향 작업에서 모델이 경쟁력 있거나 최첨단 결과를 달성함을 보여준다.

제안 방법

44.1kHz 스테레오 오디오를 1024배의 잠재 공간으로 인코딩하기 위해 완전 합성곱 VAE를 사용한다.
CLAP 기반 임베딩을 통해 텍스트 프롬프트로 확산 U-Net을 조건화한다.
훈련 창 내에서 가변 길이 출력을 가능하게 하는 초 단위로 학습된 타이밍 임베딩을 도입한다.
conditioning 신호에 대한 크로스 어텐션과 FiLM 기반 타임스텝 조건화를 사용하는 907M-parameter 확산 U-Net을 학습한다.
데이터셋에서 CLAP 텍스트 인코더를 처음부터 학습시키고, 추론 시 classifier-free 가이던스를 사용하여 100개의 확산 스텝으로 수행한다.
A100 GPU에서 8초 내에 44.1kHz로 최대 95초의 스테레오 오디오를 렌더링한다.

실험 결과

연구 질문

RQ1잠재 확산이 텍스트 프롬프트로부터 44.1kHz의 긴 형식 가변 길이 스테레오 오디오를 효율적으로 생성할 수 있는가?
RQ2타이밍 조건화가 출력 길이를 안정적으로 제어하고 사용되지 않는 부분을 채우기 위해 무음 꼬리를 허용하는가?
RQ3긴 형식 작업에서 오디오 품질, 텍스트 정렬, 스테레오 정확성이 최첨단 모델과 어떻게 비교되는가?
RQ4긴 형식 풀밴드 스테레오 오디오 생성을 평가하기 위한 효과적인 지표는 무엇인가?
RQ5모델이 도입부, 전개, 그리고 결말이 있는 구조화된 음악을 생성할 수 있는가?

주요 결과

Stable Audio는 A100 GPU에서 8초 이내에 44.1kHz로 최대 95초의 스테레오 오디오를 렌더링할 수 있다.
모델은 긴 형식 MusicCaps와 AudioCaps 평가에서 경쟁력 있거나 최첨단 결과를 달성한다.
타이밍 조건화가 출력 길이를 안정적으로 제어하며, 데이터 분포로 인한 중간 길이 주변에 다소 변동이 있다.
모델은 MusicCaps에서 오디오 품질과 텍스트 정렬에서 여러 기준선보다 우수하며, 스테레오 음악 생성을 유지하는 경쟁력을 갖춘다.
정성적으로, Stable Audio는 구조화된 음악(도입부, 전개, 결말)과 스테레오 사운드 효과를 보여준다.
추론 시 요구된 기간을 넘어서는 부분을 무음으로 채워 가변 길이 출력을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.