QUICK REVIEW

[논문 리뷰] Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech

Jaehyeon Kim, Jungil Kong|arXiv (Cornell University)|2021. 06. 11.

Speech Recognition and Synthesis참고 문헌 38인용 수 121

한 줄 요약

VITS는 조건부 VAE에 normalizing flows 및 adversarial training을 활용한 병렬 엔드-투-엔드 TTS 모델로 자연스러운 음성을 생성하고, 다양한 리듬을 위한 확률적 지속 시간 예측기를 추가하여 LJ Speech에서 실제 정답과 근접한 MOS를 달성하고 VCTK에서 강한 다중 화자 성능을 보인다.

ABSTRACT

Several recent end-to-end text-to-speech (TTS) models enabling single-stage training and parallel sampling have been proposed, but their sample quality does not match that of two-stage TTS systems. In this work, we present a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. Our method adopts variational inference augmented with normalizing flows and an adversarial training process, which improves the expressive power of generative modeling. We also propose a stochastic duration predictor to synthesize speech with diverse rhythms from input text. With the uncertainty modeling over latent variables and the stochastic duration predictor, our method expresses the natural one-to-many relationship in which a text input can be spoken in multiple ways with different pitches and rhythms. A subjective human evaluation (mean opinion score, or MOS) on the LJ Speech, a single speaker dataset, shows that our method outperforms the best publicly available TTS systems and achieves a MOS comparable to ground truth.

연구 동기 및 목표

두 단계 TTS의 한계를 잇는 엔드-투-엔드 학습 및 잠재 변수 모델링 가능성 확보.
정규화 흐름을 통해 사전(distribution)과 사후(distribution)의 표현력을 향상시키기.
음성의 다양한 리듬을 포착하기 위한 확률적 지속 시간 예측기의 모델링 및 활용.
멜-스펙트로그램 재구성만으로는 부족한 파형의 사실감을 높이기 위한 적대적 학습(adversarial training) 활용.
공개된 두 단계 시스템에 비해 우수한 품질과 다중 화자 기능을 시연.

제안 방법

조건부 VAE로 TTS를 형식화하고, 표현력 있는 잠재 공간을 위한 정상화 흐름 f_theta로 강화된 prior p(z|c)를 사용한다.
포스트에 대한 q_phi(z|x_lin) 인코더와 L1 손실로 멜-스펙트로그램 도메인에서 재구성한다.
수정된 ELBO를 최대화하기 위해 텍스트-발화 정렬 A를 Monotonic Alignment Search (MAS)를 사용하여 추정한다.
분산 양자화(variational dequantization)와 변분 데이터 증강(variational data augmentation)에 기반한 확률적 지속 시간 예측기를 도입해 발화 리듬을 모델링한다.
HiFi-GAN 유사 디코더와 판별기 D를 포함한 적대적 학습과 안정적이고 고품질의 파형 생성을 위한 특징 매칭 손실을 도입한다.
엔드-투-엔드 생성을 가능하게 하면서 효율성을 높이기 위해 윈도우드 제너레이터 학습으로 학습한다.

실험 결과

연구 질문

RQ1플로우 기반 사전으로 조건부 VAE가 중간 표현 없이도 고품질의 엔드-투-엔드 파형 합성을 생성할 수 있는가?
RQ2ELBO 최적화에 MAS 기반 정렬 추정이 통합되었을 때 음성 합성에 더 나은 정렬을 제공하는가?
RQ3확률적 지속 시간 예측기가 자연스러움을 유지하면서 병렬 TTS에서 다양한 리듬을 제공할 수 있는가?
RQ4적대적 학습 및 특징 매칭이 엔드-투-엔드 TTS 합성 품질에 미치는 영향은 무엇인가?
RQ5제안된 엔드-투-엔드 모델이 다중 화자 말뭉치에 얼마나 잘 일반화되는가?

주요 결과

모델	MOS (CI)
Ground Truth	4.46 ( ±0.06)
Tacotron 2 + HiFi-GAN	3.77 ( ±0.08)
Tacotron 2 + HiFi-GAN (Fine-tuned)	4.25 ( ±0.07)
Glow-TTS + HiFi-GAN	4.14 ( ±0.07)
Glow-TTS + HiFi-GAN (Fine-tuned)	4.32 ( ±0.07)
VITS (DDP)	4.39 ( ±0.06)
VITS	4.43 ( ±0.06)

LJ Speech에서 Ground Truth에 필적하는 MOS를 달성하여 공개된 두 단계 시스템보다 우수하다.
사전 인코더의 정상화 흐름이 MOS를 크게 개선하며(제거 시 1.52 MOS 감소).
포스트 경로에서 멜-스펙트로그램 입력보다 선형 스케일 스펙트로그램 입력이 더 높은 품질을 보였다.
VCTK에서 VITS가 Tacotron 2 + HiFi-GAN 및 Glow-TTS + HiFi-GAN의 기준값보다 높은 MOS를 달성하여 효과적인 다중 화자 모델링을 입증했다.
확률적 지속 시간 예측기가 다양한 음소 지속 시간과 음높이를 가능하게 하여 음성 리듬의 다양화를 제공하면서도 품질을 유지한다.
VITS는 Glow-TTS + HiFi-GAN보다 엔드-투-엔드 생성 속도가 빠르며 GPU에서 실시간 혹은 그보다 빠른 성능을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.