[논문 리뷰] Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech
Grad-TTS는 TTS용 확산 기반 음향 특징 생성기를 도입하고, 스코어 기반 디코더와 Monotonic Alignment Search를 사용해 멜-스펙트로그램을 생성하며, 제어 가능한 속도-품질 트레이드오프와 경쟁적인 MOS 점수를 제공합니다.
Recently, denoising diffusion probabilistic models and generative score matching have shown high potential in modelling complex data distributions while stochastic calculus has provided a unified point of view on these techniques allowing for flexible inference schemes. In this paper we introduce Grad-TTS, a novel text-to-speech model with score-based decoder producing mel-spectrograms by gradually transforming noise predicted by encoder and aligned with text input by means of Monotonic Alignment Search. The framework of stochastic differential equations helps us to generalize conventional diffusion probabilistic models to the case of reconstructing data from noise with different parameters and allows to make this reconstruction flexible by explicitly controlling trade-off between sound quality and inference speed. Subjective human evaluation shows that Grad-TTS is competitive with state-of-the-art text-to-speech approaches in terms of Mean Opinion Score. We will make the code publicly available shortly.
연구 동기 및 목표
- Diffusion 확률 모델링을 TTS의 음향 특징 생성에 동기화한다.
- Grad-TTS를 개발하여 인코딩된 텍스트를 MAS 정렬된 특징으로 조건화한 멜-스펙트로그램으로 가우시안 노이즈를 변환한다.
- 확장 설정에서 Mel-spectrogram 출력을 직접 원시 파형 생성으로 대체함으로써 엔드투엔드 TTS 가능성을 열어준다.
- 추론 속도와 품질 사이의 트레이드오프를 확산 단계 수를 변화시켜 제공한다.
제안 방법
- 데이터를 가우시안 노이즈로 매핑하는 일반화된 평균/대각 공분산(mu, Sigma)을 갖는 순방향 확산을 형식화한다.
- score 기반 그래디언트 추정을 이용한 SDE/ODE를 통해 역확산을 도출하고, 신경망 s_theta(X_t, mu, t)로 추정한다.
- 노이즈 데이터 분포의 그래디언트를 추정하는 점수 매칭 유사 손실로 학습하되 encoder 기반 정렬 mu를 포함한다.
- Monotonic Alignment Search(MAS)를 사용하여 텍스트-정렬 멜-스펙트로그램 매핑을 얻고 지속시간 예측기를 학습한다.
- 인코더 출력에 조건화된 U-Net 디코더를 채택하고 다중 해상도 멜-스펙트로그램 표현에서 작동하며 가변 추론 단계를 가능하게 한다.
실험 결과
연구 질문
- RQ1확산 확률 모델이 TTS의 효과적인 음향 특징 생성기로 작용할 수 있는가?
- RQ2MAS-정렬 인코딩과 점수 기반 디코더가 조정 가능한 추론 속도로 경쟁력 있는 음성 품질을 낼 수 있는가?
- RQ3Grad-TTS가 자동회귀 및 비자동회귀 기준선과 비교했을 때 MOS 및 객관적 지표에서 어떻게 차이가 있는가?
- RQ4Grad-TTS를 엔드투엔드 TTS로 확장하여 확산 디코딩에서 직접 파형을 생성하는 것이 가능한가?
- RQ5확산 단계 수를 조정할 때 음성 품질과 실시간 성능에 어떤 영향이 있는가?
주요 결과
| 모델 | 인코더 파라미터 | 디코더 파라미터 | RTF | 로그-가능도 | MOS |
|---|---|---|---|---|---|
| Grad-TTS-1000 | 7.2m | 7.6m | 3.663 | 0.174±0.001 | 4.44±0.05 |
| Glow-TTS | 7.2m | 21.4m | 0.008 | 0.082 | 4.11±0.07 |
| FastSpeech | 24.5m | 0.004 | - | - | 3.68±0.09 |
| Tacotron2 | 28.2m | 0.075 | - | - | 4.32±0.07 |
| Ground Truth | - | - | - | - | 4.53±0.06 |
- 확산 기반 디코딩이 Tacotron2와 경쟁력 있는 MOS 및 특정 설정에서 실제 정답과 근접한 수준의 품질을 달성한다.
- 역확산 반복 횟수를 늘리면 MOS가 향상되지만, 설정에 따라 약 10–100 회 정도에서 증가가 포화된다.
- Grad-TTS-1000은 충분히 높은 반복 횟수를 사용할 경우 GPU 합성에서 실시간 가능하며 ground-truth에 근접한 MOS(4.44±0.05 vs 4.53±0.06)를 달성한다.
- 디코더 단계가 100 미만인 경우 GPU에서의 실시간 합성을 보여주며 약 15M 파라미터로 속도와 품질의 트레이드오프에서 일부 기준보다 우수한 성능을 보인다.
- 엔드투엔드 확산 기반 TTS는 가능하지만 현재 Mel-스펙트로그램 기반 Grad-TTS에 비해 품질이 떨어지며, WaveGrad와 유사한 엔드투엔드 확산 구성의 향후 가능성을 시사한다.
- Glow-TTS 및 FastSpeech에 비해 Grad-TTS는 경쟁적인 MOS와 정렬 및 발음 측면에서의 안정성 향상을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.