QUICK REVIEW

[논문 리뷰] StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models

Yinghao Aaron Li, Cong Han|PubMed|2023. 06. 13.

Speech Recognition and Synthesis참고 문헌 61인용 수 23

한 줄 요약

StyleTTS 2는 스타일 확산과 대규모 음성-언어 모델(SLM) 기반 적대적 학습을 도입하여 인간 수준의 TTS를 달성하고, LJSpeech에서 단일 화자 인간 녹음보다 우수하며 VCTK에서 다중 화자 인간 성능에 근접하고 LibriTTS에서 강력한 제로샷 화자 적응을 보입니다.

ABSTRACT

In this paper, we present StyleTTS 2, a text-to-speech (TTS) model that leverages style diffusion and adversarial training with large speech language models (SLMs) to achieve human-level TTS synthesis. StyleTTS 2 differs from its predecessor by modeling styles as a latent random variable through diffusion models to generate the most suitable style for the text without requiring reference speech, achieving efficient latent diffusion while benefiting from the diverse speech synthesis offered by diffusion models. Furthermore, we employ large pre-trained SLMs, such as WavLM, as discriminators with our novel differentiable duration modeling for end-to-end training, resulting in improved speech naturalness. StyleTTS 2 surpasses human recordings on the single-speaker LJSpeech dataset and matches it on the multispeaker VCTK dataset as judged by native English speakers. Moreover, when trained on the LibriTTS dataset, our model outperforms previous publicly available models for zero-shot speaker adaptation. This work achieves the first human-level TTS on both single and multispeaker datasets, showcasing the potential of style diffusion and adversarial training with large SLMs. The audio demos and source code are available at https://styletts2.github.io/.

연구 동기 및 목표

참고 음성 없이도 생성 시 참조 음성을 필요 없도록 확산을 통해 스타일을 잠재 변수로 모델링하여 인간 수준의 TTS를 모델링한다.
대형 사전 학습 음성 언어 모델을 판별기로 활용하여 적대적 학습을 통해 자연스러움을 높인다.
미분 가능 기간 모델링으로 엔드-투-엔드 학습을 가능하게 하여 안정성과 합성 품질을 향상시킨다.
단일 화자 및 다중 화자 데이터셋에서의 강력한 성능을 시연하고, LibriTTS에서 데이터 효율적인 제로샷 화자 적응을 보인다.

제안 방법

입력 텍스트를 조건으로 하는 확산 모델에 의해 샘플링된 잠재 변수로 음성 스타일을 모델링한다.
고정 보코더 없이 텍스트, 스타일, 프러시를 이용해 파형을 직접 생성하도록 엔드-투-엔드 학습을 사용한다.
멜스펙트로그램 생성을 파형 디코더(HifiGAN 또는 iSTFTNet)로 대체하고 스타일 조건화를 위해 AdaIN을 적용한다.
대형 SLMs(예: WavLM)를 구분자로 사용하고 differentiable duration 모델을 적용하여 SLM 기반 적대적 학습(L_slm)을 가능하게 한다.
예측된 음소 길이를 프레임 업샘플링에 미분 가능하게 매핑하기 위한 Gaussian 업샘플링 및 비모수(non-parametric) 방법을 포함한 미분 가능 기간 모델링을 사용한다.
스피커 참조 임베딩으로 확산을 조건화하고 화자 적응을 위한 적응형 스타일링을 사용하여 다중 화자 설정을 처리한다.

실험 결과

연구 질문

RQ1스타일 확산이 참조 음성 없이도 다양하고 고품질의 TTS를 가능하게 하면서 효율성을 유지할 수 있는가?
RQ2대형 사전 학습 SLM을 판별기로 사용하는 것이 적대적 학습된 TTS의 자연스러움과 견고성을 향상시키는가?
RQ3미분 가능 기간 모델링과 함께 엔드-투-엔드 학습이 표준 데이터셋에서 인간 수준의 자연스러움과 화자 유사성을 보이는가?
RQ4StyleTTS 2는 단일 화자 대 다중 화자 설정, 그리고 제로샷 화자 적응에서 어떤 성능을 보이는가?
RQ5StyleTTS 2는 분포 외 텍스트에 대해 얼마나 강건하며 제한된 학습 데이터로 데이터 효율적인가?

주요 결과

StyleTTS 2는 LJSpeech에서 ground truth 대비 CMOS +0.28(p<0.05) 및 NaturalSpeech 대비 CMOS +1.07(p<<0.01)로 우수하다.
다중 화자 VCTK에서 StyleTTS 2는 자연스러움 CMOS −0.02, 유사성 CMOS +0.30으로 참조 대비 나타냈다(p>0.05 및 p<0.1 각각).
StyleTTS 2는 LJSpeech에서 MOS 3.83을 달성하여 이전 모델을 능가하고 VCTK에서 인간 수준의 자연스러움에 근접한 CMOS로 성능을 보인다(ground truth에 가까움).
제로샷 LibriTTS 적응에서 StyleTTS 2는 자연스러움에서 Vall-E를 +0.67 CMOS(p<0.01)로 능가하면서 약 250배 적은 학습 데이터(245시간 대 60k 시간)를 사용한다.
StyleTTS 2는 강력한 OOD 견고성을 보여주며 OOD 텍스트에서 MOS-N가 baselines를 상회하고 보이지 않는 콘텐츠에서도 자연스러움 저하가 최소화된다.
이 방법은 스타일 확산과 SLM 기반 적대적 손실로 엔드-투-엔드 미분 가능 학습을 가능하게 하여 공용 단일/다중 화자 데이터셋에서 인간 수준의 TTS를 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.