QUICK REVIEW

[논문 리뷰] Voicebox: Text-Guided Multilingual Universal Speech Generation at Scale

Matthew Le, Apoorv Vyas|arXiv (Cornell University)|2023. 06. 23.

Speech Recognition and Synthesis인용 수 45

한 줄 요약

Voicebox는 텍스트 가이드, 다국어 음성 생성을 대규모로 가능하게 하는 비-autoregressive 흐름 매칭 모델로, 컨텍스트 학습을 통해 제로샷 TTS를 달성하고, 이전 방법보다 빠르게 유연한 인필링 작업을 수행한다.

ABSTRACT

Large-scale generative models such as GPT and DALL-E have revolutionized the research community. These models not only generate high fidelity outputs, but are also generalists which can solve tasks not explicitly taught. In contrast, speech generative models are still primitive in terms of scale and task generalization. In this paper, we present Voicebox, the most versatile text-guided generative model for speech at scale. Voicebox is a non-autoregressive flow-matching model trained to infill speech, given audio context and text, trained on over 50K hours of speech that are not filtered or enhanced. Similar to GPT, Voicebox can perform many different tasks through in-context learning, but is more flexible as it can also condition on future context. Voicebox can be used for mono or cross-lingual zero-shot text-to-speech synthesis, noise removal, content editing, style conversion, and diverse sample generation. In particular, Voicebox outperforms the state-of-the-art zero-shot TTS model VALL-E on both intelligibility (5.9% vs 1.9% word error rates) and audio similarity (0.580 vs 0.681) while being up to 20 times faster. Audio samples can be found in \url{https://voicebox.metademolab.com}.

연구 동기 및 목표

다양한 작업을 명시적 미세 조정 없이 처리할 수 있는 확장 가능하고 일반화된 음성 생성 모델의 필요성을 제시한다.
작업 일반화를 가능하게 하기 위해 대규모의 실제 데이터 세트에서 학습된 텍스트 가이드 음성 인필링 프레임워크를 제안한다.
추론 효율성을 위한 흐름 매칭 및 최적 전달 경로로 학습된 비-autoregressive 흐름 기반 모델(CNF)을 개발한다.
기간 및 오디오 모델링을 분리하여 더 미세한 정렬 제어와 유연한 추론을 가능하게 한다.
Voicebox가 mono 및 다국어 제로샷 TTS, 노이즈 제거, 편집 및 다양한 샘플링에서 최첨단 성능을 달성하는 동시에 더 빠른 생성 속도를 가능하게 함을 보인다.

제안 방법

모델: 텍스트 가이드를 위한 음성 인필링에 맞춰 구축된 비-autoregressive 연속 정규화 흐름(CNF).
학습: 조건 경로를 통해 p_t(x) 를 학습하기 위한 최적 전달(OT) 경로가 있는 흐름 매칭 목표.
조건화: 오디오 컨텍스트 x_ctx 및 프레임 수준 전사 z(길이 l) 가 q(x_mis | z, x_ctx)를 구동.
아키텍처: 음소 임베딩이 포함된 (x_t, x_ctx, z) 위의 변량 벡터 필드 v_t를 변조하는 트랜스포머 기반; 길이 l에 대한 분리된 기간 모델.
추론: 초기 x_0를 p_0에서 샘플링하고 ODE를 해결; 함수 평가 수(NFE)가 속도/품질을 제어하며, 다양성과 충실성의 균형을 위한 선택적 분류기 없는 가이던스(CFG) 가능.
평가 지표: HuBERT-L 또는 Whisper를 이용한 WER, 임베딩 유사성(SIM-o 대 SIM-r)으로의 일관성, wav2vec 특징을 이용한 Fréchet 유사도(FSD) 및 MOS 기반 주관 점수.

실험 결과

연구 질문

RQ1단일 텍스트 조건 모델을 학습시켜 명시적 미세 조정 없이 컨텍스트 러닝으로 다수의 음성 생성 작업을 수행할 수 있는가?
RQ2흐름 매칭 및 OT 경로를 갖춘 비-autoregressive CNF가 mono 및 다국어 제로샷 TTS, 노이즈 제거, 편집 및 다양한 샘플링에서 기존 SOTA 모델과 비교해 어떻게 성능을 보이는가?
RQ3텍스트 가이드 인필링이 여러 언어에 걸친 고품질의 크로스링구얼 제로샷 TTS를 스타일 라벨이나 사전 학습 임베딩 없이 가능하게 하는가?
RQ4기간 및 오디오 모델링의 분리가 정렬 제어 및 추론 효율성을 향상시키는가?
RQ5다양한 음성 생성 작업에서 지각적 품질과 명료성을 가장 잘 반영하는 지표는 무엇인가?

주요 결과

Voicebox는 영어 제로샷 TTS에서 최첨단 성능을 달성하며 WER이 5.9%에서 1.9%로 개선되고 음성 유사도는 0.580에서 0.681로 향상되었다.
Voicebox는 스타일 라벨이나 다국어 프롬프트를 사용하지 않고도 여섯 개 언어에 걸친 고품질의 크로스링구얼 제로샷 TTS를 달성한다.
음성 노이즈 제거 및 콘텐츠 편집에서 Voicebox는 이전 SOTA를 능가하여 WER -8.8%, 유사도 +0.450, MOS +0.80을 달성했다.
모델은 어떠한 길이의 음성 인필링도 가능하게 하며 자가회귀 접근법에 비해 더 빠른 생성 속도(NFE가 10 미만)를 제공한다.
Voicebox가 생성한 합성 음성을 Librispeech 테스트 세트에서 실제 데이터에 비해 WER 감소 없이 ASR 학습에 사용할 수 있으며(절대 WER 증가 0.4%/1.7%), 이는 기존 TTS 모델과 차별화된다.
Voicebox는 컨텍스트 학습과 같은 동작을 통해 다양한 음성 샘플링 및 콘텐츠/스타일 편집 기능을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.