[논문 리뷰] FastSpeech: Fast, Robust and Controllable Text to Speech
FastSpeech는 길이 조정기와 길이 예측기를 사용하여 멜-스펙트로그램을 병렬로 생성하는 비자 autoregressive Transformer 기반 TTS를 도입하여 큰 속도 향상과 제어 가능한 음성 속도로 강건성 향상을 달성합니다.
Neural network based end-to-end text to speech (TTS) has significantly improved the quality of synthesized speech. Prominent methods (e.g., Tacotron 2) usually first generate mel-spectrogram from text, and then synthesize speech from the mel-spectrogram using vocoder such as WaveNet. Compared with traditional concatenative and statistical parametric approaches, neural network based end-to-end models suffer from slow inference speed, and the synthesized speech is usually not robust (i.e., some words are skipped or repeated) and lack of controllability (voice speed or prosody control). In this work, we propose a novel feed-forward network based on Transformer to generate mel-spectrogram in parallel for TTS. Specifically, we extract attention alignments from an encoder-decoder based teacher model for phoneme duration prediction, which is used by a length regulator to expand the source phoneme sequence to match the length of the target mel-spectrogram sequence for parallel mel-spectrogram generation. Experiments on the LJSpeech dataset show that our parallel model matches autoregressive models in terms of speech quality, nearly eliminates the problem of word skipping and repeating in particularly hard cases, and can adjust voice speed smoothly. Most importantly, compared with autoregressive Transformer TTS, our model speeds up mel-spectrogram generation by 270x and the end-to-end speech synthesis by 38x. Therefore, we call our model FastSpeech.
연구 동기 및 목표
- 느린 추론, 단어 누락/반복 등의 강건성 문제, 자동회로 TTS 모델의 제어 불가능성 해결.
- 피드포워드 Transformer(FFT)를 기반으로 한 병렬 멜-스펙트로그램 생성 프레임워크 제안.
- 길이 예측기와 길이 조정기를 통해 멜-스펙트로그램 길이에 맞게 음소 길이 정렬을 활용.
- 음소 길이를 조절하여 속도와 억양을 바꿀 수 있도록 제어 가능한 음성 합성 enable
제안 방법
- 음소-멜 스펙트로그램 변환을 위해 자기 주의력과 1D 컨볼루션 블록을 갖춘 피드포워드 Transformer(FFT) 사용
- 예측된 음소 길이에 따라 음소 표현을 업샘플링하여 멜-스펙트로그램 길이에 맞추는 길이 조정기 도입
- 대각선 주의 정렬을 이용해 ground-truth 길이를 도출하고 이를 사용해 자 autoregressive 교사 모델에서 학습된 길이 예측기로 음소 길이 예측
- 시퀀스 수준 지식 증류를 통해 자동회 Transformer TTS(교사 모델)에서 병렬(학생) 모델로 FastSpeech 학습
- 생성된 멜-스펙트로그램으로부터 엔드투엔드 음성 합성을 위한 WaveGlow 보코더 적용
실험 결과
연구 질문
- RQ1비자 autoregressive, 병렬 멜-스펙트로그램 생성이 자동회 모델과 견줄 만한 음성 품질을 달성할 수 있는가?
- RQ2길이 조정기와 정확한 음소 길이 예측이 단어 누락/반복 오류를 줄이는가?
- RQ3음멜-스펙트로그램 생성 및 엔드투엔드 합성에서 자동회 TTS에 비해 얼마나 속도 향상이 가능한가?
- RQ4음소 길이를 통해 음성 속도와 억양을 어느 정도까지 제어할 수 있는가?
주요 결과
| 방법 | MOS(평균 ± CI) | 비고 |
|---|---|---|
| GT | 4.41 ± 0.08 | Ground truth audio |
| GT (Mel + WaveGlow) | 4.00 ± 0.09 | Mel-spectrograms + WaveGlow |
| Tacotron 2 (Mel + WaveGlow) | 3.86 ± 0.09 | Autoregressive TTS baseline |
| Merlin (WORLD) | 2.40 ± 0.13 | Parametric TTS |
| Transformer TTS (Mel + WaveGlow) | 3.88 ± 0.09 | Autoregressive Transformer TTS |
| FastSpeech (Mel + WaveGlow) | 3.84 ± 0.08 | Proposed model |
- FastSpeech는 음성 품질에서 자동회 Transformer TTS와 거의 비슷하게 대등하다(MOS가 Transformer TTS에 근접).
- 멜-스펙트로그램 생성은 자동회 Transformer TTS에 비해 269.4배, 엔드투엔드 합성은 38.3배 속도 향상을 보인다.
- FastSpeech는 어려운 테스트 문장에서 거의 단어 누락과 반복을 없앰(0% 오류).
- 음소 길이 조절을 통해 음성 속도를 매끄럽게 0.5x에서 1.5x까지 조정 가능.
- 단어 간 휴식 추가가 길이 제어를 통해 억양을 개선할 수 있다.
- 절단 실험에서 1D 컨볼루션과 시퀀스 수준 지식 증류가 성능에 긍정적 기여를 한다
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.