QUICK REVIEW

[논문 리뷰] ClariNet: Parallel Wave Generation in End-to-End Text-to-Speech

Wei Ping, Kainan Peng|arXiv (Cornell University)|2018. 07. 19.

Speech Recognition and Synthesis참고 문헌 37인용 수 63

한 줄 요약

논문은 자동회귀 WaveNet에서 Gaussian 역 자기회귀 흐름(IAF) 증류를 도입하여 병렬 파형 생성을 가능하게 하고, 증류된 병렬 보코더를 갖춘 완전 합성 컨볼루션 엔드투엔드 텍스트-투-웨이브(TTS) 아키텍처를 제시한다.

ABSTRACT

In this work, we propose a new solution for parallel wave generation by WaveNet. In contrast to parallel WaveNet (van den Oord et al., 2018), we distill a Gaussian inverse autoregressive flow from the autoregressive WaveNet by minimizing a regularized KL divergence between their highly-peaked output distributions. Our method computes the KL divergence in closed-form, which simplifies the training algorithm and provides very efficient distillation. In addition, we introduce the first text-to-wave neural architecture for speech synthesis, which is fully convolutional and enables fast end-to-end training from scratch. It significantly outperforms the previous pipeline that connects a text-to-spectrogram model to a separately trained WaveNet (Ping et al., 2018). We also successfully distill a parallel waveform synthesizer conditioned on the hidden representation in this end-to-end model.

연구 동기 및 목표

WaveNet 기반 TTS에서 빠르고 고충실도인 병렬 파형 생성을 동기화한다.
처음부터 학습되는 완전 합성 엔드투엔드 텍스트-투-웨이브 아키텍처를 도입한다.
원시 파형을 모델링하기에 단일 Gaussian 출력이 충분하다는 것을 입증한다.
정규화된 KL 발산(KL divergence)을 이용한 증류 방법으로 Gaussian IAF를 자동회귀 WaveNet에서 학습한다.
엔드투 엔드 은닉 표현으로 conditioning된 병렬 보코더를 증류하면 경쟁력 있는 결과를 얻을 수 있음을 보인다.

제안 방법

교사 모델로서 p(x_t|x_<t) = N(mu, sigma)인 Gaussian 자동회귀 WaveNet을 사용한다.
닫힌 형태의 시간-단위 KL 표현식을 갖는 q(x_t|z_<t)와 p(x_t|x_<t) 사이의 정규화된 KL 발산 KL^reg를 최소화하여 Gaussian IAF를 학생 모델로 증류한다.
정규화된 KL과 STFT 기반 프레임 손실을 포함한 결합 손실을 계산하여 학습을 안정화한다.
스펙트로그램 대신 숨겨진 표현에 conditioning된 WaveNet을 통해 끝에서 끝까지 학습 가능한(엔드투엔드) 합성 텍스트-투-웨이브 아키텍처(인코더, 디코더, 브리지-넷, 보코더)를 개발한다.
교사와 학생 간 conditioning을 공유하고, 필요 시 엔드투 엔드 표현에 conditioning된 병렬 보코더를 증류한다.
수치적 안정성을 위해 학습 중 로그 시그마를 클리핑하고, 혼합 분포 대신 간단한 가우시안 출력을 사용한다.

실험 결과

연구 질문

RQ1하나의 Gaussian 출력이 품질 저하 없이 WaveNet 파형을 모델링하는 데 충분한가?
RQ2닫힌 형태의 안정적인 KL 발산을 가진 Gaussian IAF를 자동회귀 WaveNet으로부터 증류할 수 있는가?
RQ3처음부터 학습되는 엔드투엔드 텍스트-투-웨이브 아키텍처가 텍스트-투-스펙트로그램과 보코더를 구분하는 전통적 파이프라인 접근법을 능가하는가?
RQ4끝에서 끝까지 학습된 엔드투엔드 TTS에서 증류된 병렬 보코더는 자동회귀 보코더에 비해 어떤가?
RQ5KL 정규화, STFT 손실 등 이 증류 과정에서 효과적으로 안정화하는 기법은 무엇인가?

주요 결과

단일 Gaussian 출력 분포가 WaveNet 파형 모델링에 충분하며 MOS가 MoG/MoL/Softmax와 유사하다.
정규화된 KL 발산을 이용한 Gaussian IAF 증류로 Student-1/Student-2의 MOS가 약 4.16–4.22에 도달해 일부 베이스라인을 능가한다.
엔드투엔드 텍스트-투-웨이브 모델은 별도 학습 파이프라인보다 우수하며 MOS가 약 4.15로 DV3+WaveNet 베이스라인의 3.81–3.73보다 높다.
증류된 병렬 보코더를 이용한 추론은 GTX 1080 Ti에서 실시간의 약 20배 빠르게 실행된다.
증류된 병렬 보코더는 자동회귀 보코더와 경쟁력이 있지만, 엔드투엔드 표현에만 conditioning될 때 MOS가 다소 낮다.
이 접근법은 처음부터 학습되는 빠르고 완전 합성 엔드투엔드 TTS를 가능하게 하며 KL 증류의 이점이 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.