[논문 리뷰] Deep Voice 3: Scaling Text-to-Speech with Convolutional Sequence Learning
이 논문은 완전 합성형(convolutional)과 주의(attention) 기반 TTS 시스템(Deep Voice 3)을 제시합니다. 이는 RNN 기반 모델보다 더 빠르게 학습하고, 대규모 다중 화자 데이터셋에 확장되며, 여러 보코더를 지원하면서도 자연스러운 음성 합성을 달성합니다.
We present Deep Voice 3, a fully-convolutional attention-based neural text-to-speech (TTS) system. Deep Voice 3 matches state-of-the-art neural speech synthesis systems in naturalness while training ten times faster. We scale Deep Voice 3 to data set sizes unprecedented for TTS, training on more than eight hundred hours of audio from over two thousand speakers. In addition, we identify common error modes of attention-based speech synthesis networks, demonstrate how to mitigate them, and compare several different waveform synthesis methods. We also describe how to scale inference to ten million queries per day on one single-GPU server.
연구 동기 및 목표
- 빠른 학습과 확장 가능한 다중 화자 합성을 가능하게 하는 완전 합성형(convolutional), 주의 기반 TTS 아키텍처를 개발한다.
- 높은 자연스러움을 유지하면서 큰 데이터셋(LibriSpeech 820 시간, 2484 화자)으로 학습을 확장한다.
- 신경망 TTS에서 흔히 발생하는 주의 실패 모드를 식별하고 완화한다.
- 제안된 모델과 함께 Griffin-Lim, WORLD, WaveNet 등 여러 파형 합성 방법을 평가한다.
- 단일 GPU 서버에서 생산 준비가 된 추론 처리량을 시연한다.
제안 방법
- 세 부분으로 구성된 아키텍처를 제안한다: 인코더(텍스트를 표현으로 변환), 디코더(인과적, 다중 홉 주의로 멜 스펙트로그램을 자기회귀적으로 생성), 컨버터(보코더 매개변수를 예측).
- 게이트드 선형 유닛(gated linear units)과 잔여 연결을 갖춘 완전 합성 블록을 사용하여 순차적 계산 없이도 긴 범위 문맥을 가능하게 한다.
- 주의에서 위치 인코딩을 도입하여 단조 정렬을 촉진하고, 신뢰성을 위해 추론을 단조 주의로 제한하는 것을 선택적으로 수행한다.
- 발음을 개선하고 주의 오류를 줄이기 위해 문자-음소 결합 표현(및 혼합 입력)을 지원한다.
- 다중 작업 손실로 학습한다: 멜 스펙트로그램(L1)과 보코더 매개변수 손실( Griffin-Lim, WORLD, 또는 WaveNet)들을 함께 사용하여 견고한 학습을 달성한다.
- 다중 화자 설정에서 인코더, 디코더, 컨버터에 공통으로 공유되는 화자 임베딩을 학습한다.
실험 결과
연구 질문
- RQ1완전 합성형 시퀀스-투-시퀀스 TTS 모델이 RNN 기반 아키텍처에 비해 학습 속도를 크게 높이면서도 최첨단 자연스러움을 달성할 수 있는가?
- RQ2모델이 매우 큰 다중 화자 데이터셋(LibriSpeech, VCTK)으로 확장될 때 어떻게 작용하며 지각 품질에 어떤 영향을 미치는가?
- RQ3추론 중 또는 학습 중 단조 주의 제약이 TTS에서의 일반적인 주의 오류(반복, 잘못 발음, 건너뛰기)에 대한 강인성을 향상시키는가?
- RQ4다른 파형 합성 방법(Griffin-Lim, WORLD, WaveNet)이 Deep Voice 3의 지각 자연스러움과 지연에 어떤 영향을 미치는가?
- RQ5커스텀 추론 커널을 가진 단일 GPU 서버에서 어떤 생산 준비 처리량을 달성할 수 있는가?
주요 결과
| 모델 | MOS (VCTK) | MOS (LibriSpeech) |
|---|---|---|
| Deep Voice 3 (Griffin-Lim) | 3.01±0.29 | 2.37±0.24 |
| Deep Voice 3 (WORLD) | 3.44±0.32 | 2.89±0.38 |
| Tacotron (Griffin-Lim) | 2.07±0.31 | - |
| Ground truth | 4.69±0.04 | 4.51±0.18 |
- 훈련 속도는 유사한 RNN 기반 아키텍처(Tacotron 등)보다 한 차례당 10배 빠르며, 단일 화자에 대한 한 사이클 소요가 GPU 1대에서 약 0.06초, Tacotron은 0.59초.
- 모델은 LibriSpeech(820 시간, 2484 화자) 및 VCTK와 같은 다중 화자 데이터셋으로 확장 가능하며 단일 모델로 수천 개 화자를 가능하게 한다.
- 단조 주의 전략(추론 시 제약 또는 단조 정렬로의 학습)이 주의 오류 모드(반복, 잘못 발음, 건너뛰기)를 감소시키고 출력 품질을 향상시킨다.
- MOS 비교에서 WaveNet 보코더가 평가된 보코더 중 최고 자연스러움(3.78)을 보였고; WORLD(3.63)와 Griffin-Lim(3.62)도 근접하며, WaveNet이 가장 우수한 지각 품질을 제공하고 WORLD가 CPU에서 더 빠른 추론을 제공한다.
- 다중 화자 LibriSpeech에서 WORLD를 사용한 DV3은 MOS 2.89를 달성하고 Griffin-Lim은 2.37이며, VCTK에서 WORLD를 사용한 DV3은 3.44로 교차 데이터셋 성능이 경쟁력 있음을 입증한다.
- 시스템은 생산 규모의 추론을 지원하며, 커스텀 커널과 CPU 병렬화된 WORLD 합성으로 단일 GPU 서버에서 하루에 약 천만 건의 질의를 처리한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.