QUICK REVIEW

[논문 리뷰] UniAudio: An Audio Foundation Model Toward Universal Audio Generation

Dongchao Yang, Jinchuan Tian|arXiv (Cornell University)|2023. 10. 01.

Music and Audio Processing인용 수 14

한 줄 요약

UniAudio는 오디오와 모달리티를 토큰화하고 다중 스케일 트랜스포머를 사용하며 165k 시간과 1B 매개변수로 확장함으로써 단일 LLM 기반 모델 아래 11개의 오디오 생성 작업을 통합합니다. 경쟁력 있는 또는 최첨단 성능을 입증하고 보지 않은 작업에 대한 파인튜닝을 지원합니다.

ABSTRACT

Large Language models (LLM) have demonstrated the capability to handle a variety of generative tasks. This paper presents the UniAudio system, which, unlike prior task-specific approaches, leverages LLM techniques to generate multiple types of audio (including speech, sounds, music, and singing) with given input conditions. UniAudio 1) first tokenizes all types of target audio along with other condition modalities, 2) concatenates source-target pair as a single sequence, and 3) performs next-token prediction using LLM. Also, a multi-scale Transformer model is proposed to handle the overly long sequences caused by the residual vector quantization based neural codec in tokenization. Training of UniAudio is scaled up to 165K hours of audio and 1B parameters, based on all generative tasks, aiming to obtain sufficient prior knowledge not only in the intrinsic properties of audio but also the inter-relationship between audio and other modalities. Therefore, the trained UniAudio model has the potential to become a foundation model for universal audio generation: it shows strong capability in all trained tasks and can seamlessly support new audio generation tasks after simple fine-tuning. Experiments demonstrate that UniAudio achieves state-of-the-art or at least competitive results on most of the 11 tasks. Demo and code are released at https://github.com/yangdongchao/UniAudio

연구 동기 및 목표

하나의 아키텍처로 여러 작업을 포괄하는 보편적인 오디오 생성 모델의 필요성을 제시한다.
오디오 및 입력 모달리티에 대한 통합 토크나이제이션과 시퀀스 모델링 접근법을 제안한다.
신경 코덱 기반 오디오 토큰으로부터 길어진 토큰 시퀀스를 효율적으로 처리하기 위한 다중 스케일 트랜스포머를 개발한다.
광범위한 오디오 프라이어와 교차 모달 관계를 포착하기 위해 학습 규모를 165k 시간 및 1B 매개변수로 확대한다.
보지 않은 오디오 생성 작업에 대한 공동 학습과 미세 조정의 실행 가능성과 이점을 입증한다.

제안 방법

음성, 소리, 음악, 노래를 포함한 모든 오디오 유형과 기타 모달리티를 오디오용 보편 신경 코덱을 사용한 이산 시퀀스로 토크나이즈하고, 다른 모달리티에는 별도의 토크나이저를 사용한다.
소스-타깃 쌍을 하나의 시퀀스로 연결하고 모든 작업을 LM을 이용한 다음 토큰 예측으로 공식화한다.
RVQ 기반 오디오 토큰의 긴 시퀀스 길이를 다중 스케일 트랜스포머로 다루며, 프레임 간(global) 및 프레임 내(local) 상관 관계를 모델링한다.
여러 오디오 생성 작업에 걸쳐 약 1B 매개변수와 165k 시간의 데이터로 모델을 훈련시키고, 보지 않은 작업에 대해 미세 조정하여 적응성을 입증한다.
작업, 모듈러티, 시퀀스 경계 구분을 위한 고정된 공통 어휘와 특수 토큰을 사용하고 추론 시 top-k 샘플링을 채택한다.

실험 결과

연구 질문

RQ1단일 모델이 다양한 오디오 생성 작업(음성, 소리, 음악, 노래) 및 모달리티 전반에 걸쳐 학습하고 일반화할 수 있는가?
RQ2다중 작업에 대한 공동 학습이 개별 작업에서의 성과를 작업별 모델보다 향상시키는가?
RQ3다중 스케일 트랜스포머가 신경코덱 기반 오디오 표현의 긴 토큰 시퀀스를 효율적으로 처리하면서 생성 품질을 유지할 수 있는가?

주요 결과

UniAudio는 목표 평가 및 주관적 평가에서 11개 오디오 생성 작업 중 대부분에서 경쟁력 있는 또는 최첨단 성능을 달성한다.
작업 간 공동 학습은 상호 이점을 제공하고 작업별 모델과 비교하여 성능을 향상시킨다.
다중 스케일 트랜스포머는 계산 복잡도를 효과적으로 줄이고 긴 오디오 토큰 시퀀스에 대한 자기회귀 생성 품질을 보존한다.
보지 않은 작업에서 UniAudio를 미세 조정하면 강력한 성능을 보이며 일부 기준선보다 우수하고 특정 경우에는 실제 품질에 근접하거나 이를 능가한다.
모델은 확장성과 적응성을 보여주며 간단한 파인튜닝으로 새로운 오디오 생성 작업을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.