QUICK REVIEW

[논문 리뷰] FastPitch: Parallel Text-to-speech with Pitch Prediction

Adrian Łańcucki|arXiv (Cornell University)|2020. 06. 11.

Speech Recognition and Synthesis참고 문헌 26인용 수 75

한 줄 요약

FastPitch는 추론 중 기본 주파수(F0) 곡선을 명시적으로 예측하고 조건화함으로써 음성 품질과 표현력을 향상시킨 완전히 병렬적인 텍스트-to-speech 모델이다. 912× 실시간 요건을 충족시키는 음성 스펙트로그램을 생성함으로써 아키텍처의 추가 부담 없이 최신 기술 수준의 품질을 달성하며, 이는 인터랙티브한 피치 편집과 피치 조절 시에도 화자 신원을 유지하는 데 기여한다.

ABSTRACT

We present FastPitch, a fully-parallel text-to-speech model based on FastSpeech, conditioned on fundamental frequency contours. The model predicts pitch contours during inference. By altering these predictions, the generated speech can be more expressive, better match the semantic of the utterance, and in the end more engaging to the listener. Uniformly increasing or decreasing pitch with FastPitch generates speech that resembles the voluntary modulation of voice. Conditioning on frequency contours improves the overall quality of synthesized speech, making it comparable to state-of-the-art. It does not introduce an overhead, and FastPitch retains the favorable, fully-parallel Transformer architecture, with over 900x real-time factor for mel-spectrogram synthesis of a typical utterance.

연구 동기 및 목표

피치 예측을 명시적으로 통합함으로써 피드포워드 텍스트-to-speech 모델의 품질과 표현력을 향상시키기.
부족한 언어적 맥락으로 인한 병렬 TTS 모델의 불일치된 발음 문제를 F0 곡선에 조건화함으로써 해결하기.
추론 중에 인터랙티브한 피치 편집을 가능하게 하면서도 화자 신원과 자연스러운 억양을 유지하기.
추론 지연이나 아키텍처의 복잡성 없이도 순차적 모델 수준의 음성 합성 품질을 달성하기.

제안 방법

입력 토큰당 하나의 F0 값을 생성하는 피치 예측 헤드를 갖는 FastSpeech 아키텍처를 변형한다.
1D CNN 기반의 피치 예측기와 지속시간 예측기를 사용하여 입력 임베딩에서 조음 특징을 예측한다.
예측된 F0 값을 은닉 차원으로 투영하고 이를 입력 표현에 더하여 피치 임베딩을 적용한다.
예측된 지속시간을 기반으로 피치 임베딩된 은닉 상태를 이산적 업샘플링하여 출력 멜-스펙트로그램 프레임과 정렬한다.
멜-스펙트로그램 재구성, 피치 예측, 지속시간 예측을 포함하는 다중 작업 손실을 평균 제곱오차를 통해 최적화한다.
사전 학습된 Tacotron 2 모델을 활용해 지속시간 정렬을 추출하고, 기저값 피치를 추정하기 위해 자기상관 기반 방법을 사용한다.

실험 결과

연구 질문

RQ1기본 주파수 곡선을 명시적으로 모델링하면 완전히 병렬적인 텍스트-to-speech 모델의 품질과 일관성 향상에 기여하는가?
RQ2예측된 F0에 조건화하면 지식 전이의 필요성을 줄이고 피드포워드 TTS에서 학습 수렴을 향상시키는가?
RQ3추론 중에 얼마나 많은 수준의 피치 조작이 가능하여 표현력 있고 자연스러운 음성 변형을 생성하면서도 화자 신원을 유지할 수 있는가?
RQ4피치 조건화는 병렬 TTS 시스템에서 실시간 성능과 추론 효율성에 어떤 영향을 미치는가?

주요 결과

NVIDIA A100 GPU에서 멜-스펙트로그램 합성에 대해 912× 실시간 요건을 달성하여 초고속 추론을 가능하게 한다.
WaveGlow 볼카라이저를 사용할 경우 전체 오디오 합성은 63× 실시간 요건을 충족하여 실시간 응용에 적합하다.
LJSpeech 개발 세트에서 평균 평가 점수(MOS)는 4.071 ± 0.164를 기록하여 다중 화자 Tacotron 2(3.707)와 Flowtron(3.882)을 모두 초월한다.
피치 조건화가 수렴을 크게 향상시키며 지식 전이의 필요성을 제거하여 학습 과정을 단순화한다.
예측된 F0를 ±50 Hz로 균일하게 이동시키면 자연스러운 음성 변화를 만들어내며 화자 신원을 유지하고 성대 진동을 모방한다.
다양한 Tacotron 2 버전에서 유도된 다른 지속시간 정렬로 학습된 모델들이 유사한 음성 품질을 보이며, 정렬 변동에 대한 강건성을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.