[논문 리뷰] Tacotron: Towards End-to-End Speech Synthesis
Tacotron은 <text, audio> 쌍에서 spectrogram를 문자로부터 생성하는 엔드-투-엔드 seq2seq TTS 모델을 제안하며, 생산적 파라메트릭 시스템보다 자연스러움이 높고 프레임 단위 추론이 더 빠르게 가능하다.
A text-to-speech synthesis system typically consists of multiple stages, such as a text analysis frontend, an acoustic model and an audio synthesis module. Building these components often requires extensive domain expertise and may contain brittle design choices. In this paper, we present Tacotron, an end-to-end generative text-to-speech model that synthesizes speech directly from characters. Given pairs, the model can be trained completely from scratch with random initialization. We present several key techniques to make the sequence-to-sequence framework perform well for this challenging task. Tacotron achieves a 3.82 subjective 5-scale mean opinion score on US English, outperforming a production parametric system in terms of naturalness. In addition, since Tacotron generates speech at the frame level, it's substantially faster than sample-level autoregressive methods.
연구 동기 및 목표
- TTS에서 수작업으로 설계된 텍스트 및 특징 처리 제거를 위해 <text, audio> 쌍으로 학습되는 엔드-투-엔드 모델를 사용한다.
- 엔드-투-엔드 학습을 통해 화자나 언어와 같은 속성에 조건화를 가능하게 한다.
- longer and diverse utterances에 대한 정렬 및 운율 처리 개선.
- 샘플-단위 출력 대신 프레임 기반 spectrogram 생성을 통해 합성 속도 증가.
제안 방법
- 문자 시퀀스를 멜 스케일 spectrogram 프레임으로 매핑하는 주의(attention) 기반 시퀀스-투-시퀀스 아키텍처를 사용한다.
- 텍스트 시퀀스를 견고하게 인코딩하기 위해 CBHG(Convolution Bank + Highway Network + Bidirectional GRU) 모듈을 도입한다.
- 수렴 속도 및 학습을 가속하기 위해 디코더 스텝당 다중 프레임 예측(reduction factor r)을 도입한다.
- seq2seq 타깃을 더 높은 품질의 spectrogram으로 변환하기 위해 포스트-프로세싱 CBHG를 적용하여 Griffin-Lim을 통한 파형 합성을 가능하게 한다.
- seq2seq 멜-스펙트로그램 및 포스트-프로세싱 선형-스펙트로그램 타깃에 대해 L1 손실로 학습한다.
- Griffin-Lim으로 스펙트로그램을 예측한 후 Magnitude를 1.2 제곱으로 스케일링하여 합성 시 아티팩트를 줄인다.
실험 결과
연구 질문
- RQ1Raw text에서 학습된 엔드-투-엔드 모델이 핸드-엔지니어링된 언어학적 특징이나 HMM 정렬자 없이도 자연스러운 음성을 달성할 수 있는가?
- RQ2CBHG 기반 인코더가 문자 수준 입력에 대해 정렬 및 일반화를 향상시키는가?
- RQ3디코더 스텝당 다중 프레임 예측(축소 계수)으로 수렴 속도와 정렬 안정성이 향상되는가?
- RQ4Griffin-Lim으로 파형 재구성 시 포스트-프로세싱 네트의 품질에 미치는 영향은 무엇인가?
주요 결과
- Tacotron은 미국 영어에서 3.82의 평균 의견 점수(MOS)를 달성했고 자연스러움에서 생산적 파라메트릭 시스템을 능가한다.
- 모델은 프레임 기반으로 작동하며 샘플-레벨 자기회귀 방식보다 상당히 빠르다.
- CBHG 인코더는 일반 GRU 인코더에 비해 오발음 및 과적합을 감소시킨다.
- 포스트-프로세싱 네트는 조화로운 디테일과 고주파 포먼트를 개선하여 합성 아티팩트를 감소시킨다.
- 스펙트럼의 크기를 1.2로 올려 Griffin-Lim 기반 파형 합성 시 지각적 품질이 향상된다.
- 약 24.6시간 데이터의 내부 데이터에서 단일 여성 화자를 사용한 Tacotron은 강한 자연스러움과 강한 견고성을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.