[논문 리뷰] Parallel WaveNet: Fast High-Fidelity Speech Synthesis
논문은 훈련된 WaveNet 교사를 통해 Probability Density Distillation으로 병렬 피드포워드 WaveNet 유사 모델을 훈련시켜, 실시간 초과 20배 이상 빠른 고충실도 음성 합성을 달성하고 Google Assistant용 온라인 배치를 수행한다.
The recently-developed WaveNet architecture is the current state of the art in realistic speech synthesis, consistently rated as more natural sounding for many different languages than any previous system. However, because WaveNet relies on sequential generation of one audio sample at a time, it is poorly suited to today's massively parallel computers, and therefore hard to deploy in a real-time production setting. This paper introduces Probability Density Distillation, a new method for training a parallel feed-forward network from a trained WaveNet with no significant difference in quality. The resulting system is capable of generating high-fidelity speech samples at more than 20 times faster than real-time, and is deployed online by Google Assistant, including serving multiple English and Japanese voices.
연구 동기 및 목표
- 생산용 실시간 생성을 위한 고충실도 음성 합성 동기를 부여한다.
- WaveNet의 순차 샘플링 병목 현상을 병렬 모델로 증류하여 극복한다.
- 병렬 샘플링을 가능하게 하면서 학생 모델을 교사의 분포와 맞추기 위한 Probability Density Distillation을 제안한다.
- 더 높은 샘플링 속도와 이산화된 로지스틱 혼합 출력으로 오디오 충실도를 향상시킨다.
- 생산 배포를 통한 다중 화자 및 언어 전이 능력을 시연한다.
제안 방법
- WaveNet과 실시간 배치에 대한 자기회귀 생성의 한계를 설명한다.
- 학생 모델에서 병렬 샘플링을 가능하게 하기 위해 역자기회귀 흐름(IAFs)을 도입한다.
- WaveNet 교사의 분포를 따르는 병렬 WaveNet 학생을 학습시키기 위해 Probability Density Distillation을 제안한다.
- 샘플 품질 향상을 위해 비공유 가중치의 다중 흐름 병렬 WaveNet 아키텍처를 사용한다.
- 오디오 품질과 안정성을 개선하기 위해 보조 손실(파워 손실, 지각 손실, 대비손실)을 포함한다.
- MOS, 속도 벤치마크, 다중 화자/언어 실험을 통해 평가한다.
실험 결과
연구 질문
- RQ1병렬 피드포워드 네트워크가 빠르고 병렬 생성 가능성을 가지면서 WaveNet 음성 품질을 재현할 수 있는가?
- RQ2Probability Density Distillation이 자기회귀 WaveNet에 비해 지각적 음성 품질을 보존하는가?
- RQ3하나의 병렬 모델이 교사와 비슷한 MOS로 다중 음성/언어를 지원할 수 있는가?
- RQ4실제 하드웨어에서 병렬 WaveNet의 실용적 속도 향상은 어느 정도인가?
- RQ5보조 손실이 인지된 오디오 품질과 생산 준비성을 추가로 향상시키는가?
주요 결과
- 증류된 병렬 WaveNet은 MOS가 자기회귀 WaveNet과 동일하게 달성한다(4.41 ± 0.08 vs 4.41 ± 0.07).
- 증류된 WaveNet은 GPU에서 실시간보다 20배 이상 빠르게 오디오를 생성한다 (over 500,000 timesteps/sec vs 172 timesteps/sec autoregressive).
- Google Assistant에 배포된 다중 화자 및 교차 언어 합성에서 고충실도 성능을 달성한다.
- 다중 흐름 추가(예: 네 흐름)가 MOS를 향상시키며(단일 흐름 4.21 대 다중 흐름 4.41).
- 손실 조합(KL과 Power, 및 선택적 Perceptual/Contrastive 항)이 주관적 선호도에 영향을 주며, KL+Power가 자연스러움을 강하게 제공하고 지각적/대조 손실은 추가 이점을 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.