Skip to main content
QUICK REVIEW

[논문 리뷰] ClariNet: Parallel Wave Generation in End-to-End Text-to-Speech

Wei Ping, Kainan Peng|arXiv (Cornell University)|2018. 07. 19.
Speech Recognition and Synthesis참고 문헌 37인용 수 63
한 줄 요약

논문은 자동회귀 WaveNet에서 Gaussian 역 자기회귀 흐름(IAF) 증류를 도입하여 병렬 파형 생성을 가능하게 하고, 증류된 병렬 보코더를 갖춘 완전 합성 컨볼루션 엔드투엔드 텍스트-투-웨이브(TTS) 아키텍처를 제시한다.

ABSTRACT

In this work, we propose a new solution for parallel wave generation by WaveNet. In contrast to parallel WaveNet (van den Oord et al., 2018), we distill a Gaussian inverse autoregressive flow from the autoregressive WaveNet by minimizing a regularized KL divergence between their highly-peaked output distributions. Our method computes the KL divergence in closed-form, which simplifies the training algorithm and provides very efficient distillation. In addition, we introduce the first text-to-wave neural architecture for speech synthesis, which is fully convolutional and enables fast end-to-end training from scratch. It significantly outperforms the previous pipeline that connects a text-to-spectrogram model to a separately trained WaveNet (Ping et al., 2018). We also successfully distill a parallel waveform synthesizer conditioned on the hidden representation in this end-to-end model.

연구 동기 및 목표

  • WaveNet 기반 TTS에서 빠르고 고충실도인 병렬 파형 생성을 동기화한다.
  • 처음부터 학습되는 완전 합성 엔드투엔드 텍스트-투-웨이브 아키텍처를 도입한다.
  • 원시 파형을 모델링하기에 단일 Gaussian 출력이 충분하다는 것을 입증한다.
  • 정규화된 KL 발산(KL divergence)을 이용한 증류 방법으로 Gaussian IAF를 자동회귀 WaveNet에서 학습한다.
  • 엔드투 엔드 은닉 표현으로 conditioning된 병렬 보코더를 증류하면 경쟁력 있는 결과를 얻을 수 있음을 보인다.

제안 방법

  • 교사 모델로서 p(x_t|x_<t) = N(mu, sigma)인 Gaussian 자동회귀 WaveNet을 사용한다.
  • 닫힌 형태의 시간-단위 KL 표현식을 갖는 q(x_t|z_<t)와 p(x_t|x_<t) 사이의 정규화된 KL 발산 KL^reg를 최소화하여 Gaussian IAF를 학생 모델로 증류한다.
  • 정규화된 KL과 STFT 기반 프레임 손실을 포함한 결합 손실을 계산하여 학습을 안정화한다.
  • 스펙트로그램 대신 숨겨진 표현에 conditioning된 WaveNet을 통해 끝에서 끝까지 학습 가능한(엔드투엔드) 합성 텍스트-투-웨이브 아키텍처(인코더, 디코더, 브리지-넷, 보코더)를 개발한다.
  • 교사와 학생 간 conditioning을 공유하고, 필요 시 엔드투 엔드 표현에 conditioning된 병렬 보코더를 증류한다.
  • 수치적 안정성을 위해 학습 중 로그 시그마를 클리핑하고, 혼합 분포 대신 간단한 가우시안 출력을 사용한다.

실험 결과

연구 질문

  • RQ1하나의 Gaussian 출력이 품질 저하 없이 WaveNet 파형을 모델링하는 데 충분한가?
  • RQ2닫힌 형태의 안정적인 KL 발산을 가진 Gaussian IAF를 자동회귀 WaveNet으로부터 증류할 수 있는가?
  • RQ3처음부터 학습되는 엔드투엔드 텍스트-투-웨이브 아키텍처가 텍스트-투-스펙트로그램과 보코더를 구분하는 전통적 파이프라인 접근법을 능가하는가?
  • RQ4끝에서 끝까지 학습된 엔드투엔드 TTS에서 증류된 병렬 보코더는 자동회귀 보코더에 비해 어떤가?
  • RQ5KL 정규화, STFT 손실 등 이 증류 과정에서 효과적으로 안정화하는 기법은 무엇인가?

주요 결과

  • 단일 Gaussian 출력 분포가 WaveNet 파형 모델링에 충분하며 MOS가 MoG/MoL/Softmax와 유사하다.
  • 정규화된 KL 발산을 이용한 Gaussian IAF 증류로 Student-1/Student-2의 MOS가 약 4.16–4.22에 도달해 일부 베이스라인을 능가한다.
  • 엔드투엔드 텍스트-투-웨이브 모델은 별도 학습 파이프라인보다 우수하며 MOS가 약 4.15로 DV3+WaveNet 베이스라인의 3.81–3.73보다 높다.
  • 증류된 병렬 보코더를 이용한 추론은 GTX 1080 Ti에서 실시간의 약 20배 빠르게 실행된다.
  • 증류된 병렬 보코더는 자동회귀 보코더와 경쟁력이 있지만, 엔드투엔드 표현에만 conditioning될 때 MOS가 다소 낮다.
  • 이 접근법은 처음부터 학습되는 빠르고 완전 합성 엔드투엔드 TTS를 가능하게 하며 KL 증류의 이점이 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.