QUICK REVIEW

[논문 리뷰] Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions

Jonathan Shen, Ruoming Pang|arXiv (Cornell University)|2017. 12. 16.

Speech Recognition and Synthesis참고 문헌 28인용 수 183

한 줄 요약

Tacotron 2는 Tacotron 스타일의 멜 스펙트로그램 예측기와 수정된 WaveNet 보코더를 결합하여 텍스트에서 직접 고품질 음성을 합성하고 자연스러운 음성 MOS에 근접하게 달성합니다. 시스템은 멜 스펙트로그램을 중간 표현으로 사용하며 비제한 및 효율성 향상을 보여주는 연구를 수행합니다.

ABSTRACT

This paper describes Tacotron 2, a neural network architecture for speech synthesis directly from text. The system is composed of a recurrent sequence-to-sequence feature prediction network that maps character embeddings to mel-scale spectrograms, followed by a modified WaveNet model acting as a vocoder to synthesize timedomain waveforms from those spectrograms. Our model achieves a mean opinion score (MOS) of $4.53$ comparable to a MOS of $4.58$ for professionally recorded speech. To validate our design choices, we present ablation studies of key components of our system and evaluate the impact of using mel spectrograms as the input to WaveNet instead of linguistic, duration, and $F_0$ features. We further demonstrate that using a compact acoustic intermediate representation enables significant simplification of the WaveNet architecture.

연구 동기 및 목표

핸드크래프트 기능 없이 텍스트를 음성으로 매핑하는 완전한 신경 TTS 파이프라인을 시연한다.
멜 스펙트로그램으로 조건화된 WaveNet이 고품질의 오디오를 생성함을 보인다.
멜 스펙트로그램 조건화가 언어학/D0 특성 및 레거시 보코더에 비해 어떤 영향을 미치는지 평가한다.
구성 요소의 기여도와 모델 효율성을 이해하기 위한 어블레이션을 평가한다.

제안 방법

일련-투-일 feature 예측기가 문자 임베딩을 어텐션과 함께 멜 스펙트로그램 프레임으로 매핑한다.
수정된 WaveNet 보코더가 예측된 멜 스펙트로그램에 조건화된 시간 영역 오디오를 생성한다.
스펙트로그램 예측기에 교사 강제(teacher-forcing)를 적용하고, 예측된 특징에서 WaveNet을 별도로 학습시킨다.
중지 토큰 메커니즘이 파형 생성을 동적으로 종료한다.
포스트-넷이 잔여를 추가하여 스펙트로그램 재구성을 개선한다.

실험 결과

연구 질문

RQ1멜 스펙트로그램 예측으로 WaveNet을 조건화하는 것이 언어학적 특성이나 Griffin-Lim 기반 보코더로 조건화하는 것보다 더 높은 품질의 음성을 만들어내는가?
RQ2중간 표현으로 멜 스펙트로그램을 사용하는 것이 모델 복잡도와 오디오 품질에 어떤 영향을 미치는가?
RQ3어블레이션(선형 대 멜 스펙트로그램, 포스트-넷 필요성, WaveNet 깊이)이 MOS 및 지각적 자연성에 어떤 영향을 미치는가?
RQ4엔드투엔드 신경 TTS가 도메인 내 텍스트와 도메인 외 텍스트에서 지상 진실에 근접한 MOS를 달성할 수 있는가?
RQ5Tacotron 2에서 나타나는 발음 및 운율(Error) 모드는 무엇이며 기준선과 비교했을 때 어떤 차이가 있는가?

주요 결과

Tacotron 2는 Mel 조건화에서 MOS 4.526을 달성하여 지상진실 MOS 4.582에 근접한다.
지상 진실 오디오의 점수는 4.582(95% CI); Tacotron 2는 4.526(CI 0.066)으로 근접하게 일치한다.
멜 스펙트로그램으로 조건화된 WaveNet은 언어적 특징 및 Griffin-Lim 기반의 보코더로 조건화된 WaveNet보다 상당히 우수하다.
멜 스펙트로그램을 사용하면 컴팩트한 조건 입력이 가능하고 더 얕은 WaveNet(예: 12 레이어)으로도 품질을 유지할 수 있다.
포스트-넷은 MOS를 증가시키는 데 기여한다(포스트-넷으로 4.526, 포스트-넷 없이 4.429).
어블레이션은 학습 대 추론 피처 정렬이 중요하다는 것을 보여준다(최고의 경우 WaveNet이 지상 진실 피처에 대해 학습되지만 예측 피처로 디코딩될 때 가장 좋다).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.