QUICK REVIEW

[논문 리뷰] VALL-E 2: Neural Codec Language Models are Human Parity Zero-Shot Text to Speech Synthesizers

Sanyuan Chen, Shujie Liu|arXiv (Cornell University)|2024. 06. 08.

Speech Recognition and Synthesis인용 수 8

한 줄 요약

VALL-E 2는 반복 인식 샘플링과 그룹화된 코드 모델링을 도입하여 LibriSpeech와 VCTK에서 인간과 동등한 제로샷 TTS를 달성하기 위해 신경 부호화 언어 모델을 발전시켰다.

ABSTRACT

This paper introduces VALL-E 2, the latest advancement in neural codec language models that marks a milestone in zero-shot text-to-speech synthesis (TTS), achieving human parity for the first time. Based on its predecessor, VALL-E, the new iteration introduces two significant enhancements: Repetition Aware Sampling refines the original nucleus sampling process by accounting for token repetition in the decoding history. It not only stabilizes the decoding but also circumvents the infinite loop issue. Grouped Code Modeling organizes codec codes into groups to effectively shorten the sequence length, which not only boosts inference speed but also addresses the challenges of long sequence modeling. Our experiments on the LibriSpeech and VCTK datasets show that VALL-E 2 surpasses previous systems in speech robustness, naturalness, and speaker similarity. It is the first of its kind to reach human parity on these benchmarks. Moreover, VALL-E 2 consistently synthesizes high-quality speech, even for sentences that are traditionally challenging due to their complexity or repetitive phrases. The advantages of this work could contribute to valuable endeavors, such as generating speech for individuals with aphasia or people with amyotrophic lateral sclerosis. See https://aka.ms/valle2 for demos of VALL-E 2.

연구 동기 및 목표

대상 스피커 데이터 없이 인간과 동등한 음성 클로닝을 달성하기 위한 제로샷 TTS 개선의 동기를 부여한다.
새로운 샘플링 및 그룹화 전략을 통해 안정적이고 효율적인 디코딩과 장문 시퀀스 모델링을 제안한다.
코덱-언어 모델링 접근법이 벤치마크 데이터셋에서 인간 수준의 성능에 도달할 수 있음을 보여준다.
도전적인 문장과 반복 구절에 대해 견고성을 보여준다.
학습 데이터 요건의 단순성 및 잠재적 응용 및 위험성을 강조한다.

제안 방법

디코딩 히스토리의 반복에 따라 무작위 샘플링과 핵심 샘플링(nucleus sampling) 사이의 적응을 가능하게 하는 반복 인식 샘플링을 도입한다.
코덱 코드를 그룹으로 분할하고 각 그룹을 하나의 프레임으로 모델링하여 시퀀스를 단축하는 그룹화된 코드 모델링을 제안한다.
코덱 코드 생성을 위한 하이브리드 자동회귀(AR) 및 비자동회귀(NAR) 트랜스포머 아키텍처를 채택한다.
토큰화에 Encodec를, 디코딩에 Vocos를 사용하고 Libriheavy 데이터를 활용한 발화별 음성-전사 쌍으로 학습한다.
텍스트 및 프롬프트 코드가 주어졌을 때 조건부 로그 가능도를 최대화하기 위한 AR 및 NAR 구성 요소의 그룹화된 코드 가능도 목표를 정식화한다.
보지 않은 화자의 음성 프롬프트를 이용한 프롬프트로 제로샷 TTS를 적용하여 대상 코드를 생성하고 음성을 합성한다.

실험 결과

연구 질문

RQ1VALL-E 2가 표준 벤치마크에서 제로샷 TTS에서 인간과 동등한 수준에 도달할 수 있는가?
RQ2반복 인식 샘플링과 그룹화된 코드 모델링이 코덱 기반 TTS의 안정성, 속도 및 장문 시퀀스 모델링을 개선하는가?
RQ3고품질 제로샷 TTS 모델 학습에 단순한 발화-전사 쌍 데이터가 충분한가?
RQ4시스템이 도메인 내외의 데이터셋에서도 화자 유사성, 자연스러움, 강건성을 유지하는가?
RQ5도전적이거나 반복적인 문장을 안정적으로 고품질 합성으로 처리할 수 있는가?

주요 결과

VALL-E 2는 LibriSpeech와 VCTK에서 강건성, 자연스러움, 유사성 벤치마크에서 인간과 동등한 성능을 달성한다.
그룹화된 코드 모델링은 시퀀스 길이를 줄이고 추론 속도를 높이며 장문 컨텍스트 문제를 완화한다.
반복 인식 샘플링은 디코딩을 안정시키고 지연 없이 무한 루프를 방지한다.
모델은 학습 데이터로서 발화-전사 쌍의 단일 형식만으로도 강력한 제로샷 TTS 성능을 달성한다.
VALL-E 2는 복잡한 문장과 반복 구절에 대해 강건한 음성 합성을 시연한다.
디코딩 속도는 성능 저하를 최소화하면서 크게 가속될 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.