[논문 리뷰] NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level Quality
NaturalSpeech는 음소 프리트레이닝, 미분 가능한 지속 시간 모델링, 양방향 선행/후행 흐름, 메모리 기반 VAE를 갖춘 VAE 기반 텍스트-투-웨이브폼 프레임워크를 사용하여 LJSpeech에서 인간 수준의 품질을 달성하는 엔드-투-엔드 TTS 시스템이며, CMOS 차이가 인간 녹음과 구별되지 않음을 입증한다.
Text to speech (TTS) has made rapid progress in both academia and industry in recent years. Some questions naturally arise that whether a TTS system can achieve human-level quality, how to define/judge that quality and how to achieve it. In this paper, we answer these questions by first defining the human-level quality based on the statistical significance of subjective measure and introducing appropriate guidelines to judge it, and then developing a TTS system called NaturalSpeech that achieves human-level quality on a benchmark dataset. Specifically, we leverage a variational autoencoder (VAE) for end-to-end text to waveform generation, with several key modules to enhance the capacity of the prior from text and reduce the complexity of the posterior from speech, including phoneme pre-training, differentiable duration modeling, bidirectional prior/posterior modeling, and a memory mechanism in VAE. Experiment evaluations on popular LJSpeech dataset show that our proposed NaturalSpeech achieves -0.01 CMOS (comparative mean opinion score) to human recordings at the sentence level, with Wilcoxon signed rank test at p-level p >> 0.05, which demonstrates no statistically significant difference from human recordings for the first time on this dataset.
연구 동기 및 목표
- TTS에서 인간 수준의 품질을 주관적 평가의 통계적 유의성으로 정의한다.
- 테스트 세트에서 인간 수준의 품질을 판단하기 위한 지침을 식별한다.
- 벤치마크 데이터셋에서 인간 녹음과의 간극을 잇는 엔드-투-엔드 TTS 시스템을 개발한다.
- 제안된 시스템이 LJSpeech에서 인간 음성에 대한 CMOS 차별 가능성 없이 구분 불가능하게 달성함을 보인다.
제안 방법
- 음성 x를 프레임 수준 잠재 변수 z로 매핑하고 z에서 x를 재구성하는 변분 오토인코더를 사용한다(p(x|z)).
- 큰 규모의 프리트레이닝을 가진 음소 인코더를 사용하여 텍스트 y로부터 프레임 수준 선행 p(z|y)를 예측한다.
- 음소 수준의 선행을 프레임 수준 사후에 맞추기 위해 미분 가능한 durator를 도입한다.
- 사전(prior)을 강화하고 사후(posteriors)를 단순화하기 위해 흐름 모델을 통한 양방향 선행/사후 모듈을 통합한다.
- 웨이브폼 재구성을 위해 메모리 뱅크에 주의(attend)하도록 하여 사후 복잡성을 줄이는 메모리 기반 VAE를 적용한다.
- L_bwd, L_fwd, L_rec, L_e2e를 포함한 여러 손실 항과 적절한 경우 소프트-DTW로 엔드-투-엔드로 학습한다.
실험 결과
연구 질문
- RQ1TTS에서 인간 수준의 품질은 무엇이며 이를 통계적으로 어떻게 판단할 수 있는가?
- RQ2표준 데이터셋에서 엔드-투-엔드 TTS 시스템이 인간 녹음에 접근하거나 이를 따라잡을 수 있는가?
- RQ3어떤 아키텍처 구성 요소가 인간 음성에 대한 간극을 가장 효과적으로 좁히는가(음소 프리트레이닝, 미분 가능한 durator, 양방향 선행/후행, 메모리 기반 VAE)?
주요 결과
| 시스템 | MOS | CMOS |
|---|---|---|
| Human Recordings | 4.58±0.13 | 0 |
| NaturalSpeech | 4.56±0.13 | -0.01 |
| FastSpeech 2 + HiFiGAN | 4.32±0.15 | -0.33 |
| Glow-TTS + HiFiGAN | 4.34±0.13 | -0.26 |
| Grad-TTS + HiFiGAN | 4.37±0.13 | -0.24 |
| VITS | 4.43±0.13 | -0.20 |
- NaturalSpeech는 LJSpeech에서 인간 녹음에 비해 CMOS -0.01로, p >> 0.05로 인간 음성과 통계적으로 차이가 없음을 나타낸다.
- MOS에서 NaturalSpeech는 인간 녹음과 일치한다(4.56±0.13 vs 4.58±0.13, p = 0.7145).
- FastSpeech 2 + HiFiGAN, Glow-TTS + HiFiGAN, Grad-TTS + HiFiGAN, VITS와 비교할 때 NaturalSpeech가 MOS를 더 높게 달성하고(CMOS도 0에 더 가깝게) 인간 녹음에 근접하다(4.56 vs 4.32–4.49, 0 vs -0.20 to -0.33).
- 각 핵심 구성요소(음소 프리트레이닝, 미분 가능한 durator, 양방향 선행/후행, VAE의 메모리 사용)가 CMOS에 기여함을 보여주며, 제거 시 -0.06에서 -0.12의 감소가 나타난다.
- NaturalSpeech는 기준 TTS 시스템에 비해 추론 속도가 더 빠르거나 비교 가능하며(inference speed) 음성 품질이 우수하다(RTF ~ 0.013).
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.