QUICK REVIEW

[논문 리뷰] Glow-TTS: A Generative Flow for Text-to-Speech via Monotonic Alignment Search

Jaehyeon Kim, Sungwon Kim|arXiv (Cornell University)|2020. 05. 22.

Speech Recognition and Synthesis참고 문헌 33인용 수 204

한 줄 요약

Glow-TTS는 내부적으로 단조로운 텍스트-음성 정합을 학습하는 흐름 기반 병렬 TTS 모델로, 외부 정렬기가 필요 없이 빠르고 강건하며 제어 가능한 음성 합성을 가능하게 한다. 빠른 병렬 합성을 달성하고 자기회귀 Tacotron 2와 비슷한 품질을 제공하며, 다다발 화자 설정과 억양 제어를 추가로 지원한다.

ABSTRACT

Recently, text-to-speech (TTS) models such as FastSpeech and ParaNet have been proposed to generate mel-spectrograms from text in parallel. Despite the advantage, the parallel TTS models cannot be trained without guidance from autoregressive TTS models as their external aligners. In this work, we propose Glow-TTS, a flow-based generative model for parallel TTS that does not require any external aligner. By combining the properties of flows and dynamic programming, the proposed model searches for the most probable monotonic alignment between text and the latent representation of speech on its own. We demonstrate that enforcing hard monotonic alignments enables robust TTS, which generalizes to long utterances, and employing generative flows enables fast, diverse, and controllable speech synthesis. Glow-TTS obtains an order-of-magnitude speed-up over the autoregressive model, Tacotron 2, at synthesis with comparable speech quality. We further show that our model can be easily extended to a multi-speaker setting.

연구 동기 및 목표

외부 정렬기가 학습에 필요하지 않은 병렬 TTS 모델 개발.
단조로운 정합을 갖는 흐름 기반 디코더를 통해 빠르고 강건한 멜-스펙트로그램 합성을 가능하게 한다.
학습 중 가장 가능성이 높은 단조로운 정합 A*를 찾기 위해 동적 계획법을 도입한다.
억양(피치) 및 말하기 속도에 대한 제어 가능성을 시연하고 다화자 TTS로 확장한다.

제안 방법

사전 z|c를 x로 변환하는 흐름 기반 디코더를 통해 멜-스펙트로그램의 조건부 분포를 모델링한다.
잠재 z 인덱스를 텍스트로 인코딩된 통계 mu, sigma로 매핑하기 위해 정렬 함수 A를 사용하고, 단조롭고 전사적 정합을 강제한다.
MAS를 통한 가장 가능성이 높은 단조로운 정합 A*를 찾아 모델 매개변수를 업데이트하는 것을 교대하며 최대 우도 방식으로 학습한다(비터비 스타일 학습).
텍스트 인코더로 사전 통계를 예측하고, 정합으로 파생된 지속 시간과를 맞추기 위해 지속 시간 예측기를 학습시킨다.
텍스트로부터 사전 통계를 예측하고, 사전에서 z를 샘플링한 뒤 병렬로 흐름 기반 디코더를 통해 변환하여 추론한다.

실험 결과

연구 질문

RQ1흐름 기반 TTS 모델이 외부 정렬기 없이도 단조로운 텍스트-음성 정합을 학습할 수 있는가?
RQ2경직된 단조로운 정합을 강제하는 것이 강건성을 향상시키고 병렬 합성을 가능하게 하는가?
RQ3모델이 다화자 TTS를 지원하고 억양 및 말하기 속도에 대한 제어를 제공할 수 있는가?

주요 결과

Glow-TTS는 그들의 설정에서 Tacotron 2보다 멜-스펙트로그램 합성을 15.7배 빠르게 달성한다.
MOS 결과는 Glow-TTS 변형이 Tacotron 2와 유사한 인지 품질을 달성하며, 단일 화자에서의 최고 MOS는 구성에 따라 약 4.0–4.5 정도이다(예: Mel+WaveGlow 기준 4.01–4.19, GT가 더 높은 품질 설정에서 4.54 달성).
모델은 긴 발화에서도 Tacotron 2보다 낮은 문자 오류율로 긴 입력에 대해 강건성을 유지한다.
해당 프레임워크는 잠재 노이즈 ε를 통한 다양한 음성 및 온도 T를 통한 가변 피치 제어, 지속 시간 스케일링을 통한 말하기 속도 조정을 가능하게 한다.
Glow-TTS는 단일 화자 기준과 비슷한 성능으로 다화자 TTS로 확장 가능하고, 잠재-음성 분리(disentanglement)를 통한 보이스 컨버전도 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.