[논문 리뷰] High Fidelity Speech Synthesis with Adversarial Networks
GAN-TTS는 피드포워드 생성기와 무작위 윈도우 판별기의 앙상블을 사용하여 텍스트-투-스피치를 위한 고충실도 원시 오디오를 합성하고 효율적인 병렬 생성으로 WaveNet에 비견되는 MOS를 달성한다. 또한 평가를 위한 조건부 및 무조건 DeepSpeech 기반 지표를 도입한다.
Generative adversarial networks have seen rapid development in recent years and have led to remarkable improvements in generative modelling of images. However, their application in the audio domain has received limited attention, and autoregressive models, such as WaveNet, remain the state of the art in generative modelling of audio signals such as human speech. To address this paucity, we introduce GAN-TTS, a Generative Adversarial Network for Text-to-Speech. Our architecture is composed of a conditional feed-forward generator producing raw speech audio, and an ensemble of discriminators which operate on random windows of different sizes. The discriminators analyse the audio both in terms of general realism, as well as how well the audio corresponds to the utterance that should be pronounced. To measure the performance of GAN-TTS, we employ both subjective human evaluation (MOS - Mean Opinion Score), as well as novel quantitative metrics (Fréchet DeepSpeech Distance and Kernel DeepSpeech Distance), which we find to be well correlated with MOS. We show that GAN-TTS is capable of generating high-fidelity speech with naturalness comparable to the state-of-the-art models, and unlike autoregressive models, it is highly parallelisable thanks to an efficient feed-forward generator. Listen to GAN-TTS reading this abstract at https://storage.googleapis.com/deepmind-media/research/abstract.wav.
연구 동기 및 목표
- 적대적으로 학습된 피드포워드 네트워크가 고충실도 원시 음성 파형을 생성할 수 있음을 입증한다.
- 현실성 및 텍스트-발화 정렬을 평가하기 위한 조건부 및 무조건부 Random Window Discriminators(RWDs)의 앙상블을 제안한다.
- DeepSpeech 특징을 사용한 Fréchet 및 Kernel 거리에 기반한 객관적 음성 생성 지표를 도입한다.
- 자귀회귀 baselines와 비교 평가하고 아키텍처 선택을 검증하기 위한 ablations를 수행한다.
제안 방법
- GAN-TTS를 제안한다: 200 Hz 언어-피치 특징으로부터 24 kHz 원시 오디오를 생성하는 조건부 피드포워드 생성기.
- 여러 창 크기에서 조건부 및 무조건부 변형을 갖춘 Random Window Discriminators(RWDs)의 앙상블을 구현한다.
- RWD 앙상블을 사용한 적대적 손실로 학습하여 현실감과 텍스트-발화 일치를 촉진한다.
- 주관적 MOS와 객관적 지표: DeepSpeech 특징을 기반으로 한 FDSD/KDSD 및 cFDSD/cKDSD로 평가한다.
- 롱-range 의존성을 위해 생성기에 mu-law 인코딩과 잔차 연결이 있는 확장된 dilation 컨볼루션 블록을 사용하여 장거리 의존성을 확보한다.
실험 결과
연구 질문
- RQ1비자기회귀(non-autoregressive) 피드포워드 생성기와 판별기 앙상블이 자기회귀 모델과 비교할 만큼 자연스러운 음성을 생성할 수 있는가?
- RQ2여러 창 크기에 걸친 무작위 윈도우 판별기가 현실감과 텍스트-발화 정렬을 개선하는가?
- RQ3DeepSpeech 기반 Fréchet 및 Kernel 거리(FDSD/KDSD)가 TTS 모델의 인간 MOS와 신뢰할 수 있는 상관관계를 보이는가?
- RQ4조건부 대 무조건부 판별기의 다양한 구성들이 품질과 평가 지표에 어떤 영향을 미치는가?
주요 결과
| 모델 | MOS | FDSD | cFDSD | KDSD ×10^5 | cKDSD ×10^5 |
|---|---|---|---|---|---|
| natural speech | 4.55±0.075 | 0.161 | N/A | 0 | 0 |
| WaveNet | 4.41±0.069 | ||||
| Parallel WaveNet | 4.41±0.078 | ||||
| FullD | 1.889±0.057 | 4.51 | 4.46 | 785 | 782 |
| cRWD1 | 3.394±0.058 | 0.362 | 0.247 | 35.2 | 30.9 |
| cRWD{1,2,4,8,15} | 3.498±0.059 | 0.398 | 0.284 | 42.1 | 37.9 |
| cRWD1+uRWD1 | 3.502±0.057 | 0.259 | 0.144 | 16.6 | 12.3 |
| (cRWD1+uRWD1)×5 | 3.526±0.054 | 0.194 | 0.073 | 5.59 | 1.34 |
| RWD1,240×{1,2,4,8,15} | 4.154±0.050 | 0.184 | 0.061 | 3.73 | 0.54 |
| RWD*480 | 4.195±0.045 | 0.193 | 0.069 | 5.28 | 0.98 |
| GAN-TTS (RWD*) | 4.213±0.046 | 0.184 | 0.060 | 3.84 | 0.37 |
- 최고의 GAN-TTS 모델은 MOS 4.213±0.046를 달성하며 WaveNet과 같은 강력한 기준선에 비견된다.
- 전체 다중 윈도우 판별기 앙상블은 MOS와 지표에서 단일 판별기 및 결정론적 전체 판별기를 능가한다.
- 무조건부 RWD가 성능을 향상시키며, 다수의 조건부 RWD를 무조건부 RWD와 결합하는 것이 ablations 중 최적의 결과를 낳는다.
- 조건부/무조건부 Fréchet DeepSpeech Distance(FDSD) 및 Kernel DeepSpeech Distance(KDSD)가 MOS와 상관관계를 보이며 평가에 유용함을 뒷받침한다.
- GAN-TTS는 자기회귀 모델과 비견될 만큼 자연스러움을 제공하면서도 더 병렬화 가능하고 효율적인 파형 생성을 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.