[논문 리뷰] Flowtron: an Autoregressive Flow-based Generative Network for Text-to-Speech Synthesis
Flowtron은 컨트롤 가능한 음성 변이와 스타일 전송이 가능한 자기회귀 흐름 기반 TTS 모델을 제시하며, MOS가 최첨단 모델과 비슷하고 잠재 공간 조작으로 표현적 음성을 가능하게 한다.
In this paper we propose Flowtron: an autoregressive flow-based generative network for text-to-speech synthesis with control over speech variation and style transfer. Flowtron borrows insights from IAF and revamps Tacotron in order to provide high-quality and expressive mel-spectrogram synthesis. Flowtron is optimized by maximizing the likelihood of the training data, which makes training simple and stable. Flowtron learns an invertible mapping of data to a latent space that can be manipulated to control many aspects of speech synthesis (pitch, tone, speech rate, cadence, accent). Our mean opinion scores (MOS) show that Flowtron matches state-of-the-art TTS models in terms of speech quality. In addition, we provide results on control of speech variation, interpolation between samples and style transfer between speakers seen and unseen during training. Code and pre-trained models will be made publicly available at https://github.com/NVIDIA/flowtron
연구 동기 및 목표
- 텍스트-투-스피치(TTS)만으로는 부족한 제어 가능한 비텍스트 정보(프로소디, 스타일)에 대한 필요성을 제시한다.
- 멜-스펙트로그램과 잠재 z-공간 사이의 가역 매핑을 학습하는 일반화 가능한 모델을 정상화 흐름(normalizing flows)을 사용해 개발한다.
- 잠재 공간 샘플링 및 텍스트와 화자 정보를 conditioning으로 활용하여 음성의 특징(피치, 어조, 억양, 억양, 억양)을 조작 가능하게 한다.
- 추가 프리넷/포스트넷이나 합성 손실 없이 가능도 기반 최적화를 통해 안정적인 학습을 달성한다.
- 보여준 화자와 보이지 않는 화자에 대해 variation control, 보간(interpolation), 스타일 전송이 가능한 표현력 있는 음성 합성을 시연한다.
제안 방법
- 멜-스펙트로그램 프레임이 p(x) = product p(x_t|x_1:t-1)로 텍스트와 화자 임베딩에 conditioned 된 자기회귀 흐름 모델로 생성된다.
- 로그 결정적 항(log-determinant terms)을 포함하는 가역적 선형 결합 계층으로 잠재 z(가우시안 또는 가우시안 혼합)에서 멜-스펙트로그램으로 매핑한다.
- Prenet/Postnet을 대체하고 인스턴스 정규화와 콘텐츠 기반 어텐션을 갖춘 Tacotron 유사한 텍스트 인코더를 채택한다.
- 스타일 제어를 위한 prior evidence에 조건화된 포커스와 샘플링을 가능하게 하는 가우시안 또는 가우시안 혼합으로 z-공간을 매개화한다.
- 데이터 가능도 최대화로 학습하고, 추론 시 가우시안 또는 GM에서 z를 샘플링하고 흐름을 역전시켜 멜-스펙트로그램을 생성하며, prior 샘플에 기초한 포스터리어 조건를 사용할 수 있다.
실험 결과
연구 질문
- RQ1정규화 흐름 기반 TTS가 최첨단 음성 품질에 도달하면서도 제어 가능한 가변성을 제공할 수 있는가?
- RQ2잠재 공간 조작이 TTS 출력의 프로소디, 억양, 스타일에 어떤 식으로 제어를 가능하게 하는가?
- RQ3Flowtron이 보이는 화자와 보이지 않는 데이터 사이에서 표현 데이터 라벨 없이 샘플 간 보간(interpolation)과 스타일 전송을 수행할 수 있는가?
주요 결과
| 소스 | 흐름들 | 평균 의견 점수 (MOS) |
|---|---|---|
| 실제 | 4.274 ± 0.1340 | |
| Flowtron | 3 | 3.665 ± 0.1634 |
| Tacotron 2 | - | 3.521 ± 0.1721 |
- Flowtron은 최첨단 TTS 모델과 유사한 MOS를 달성하며 멜 스펙트로그램 합성에서 Tacotron 2와의 품질 차이를 좁힌다.
- 가우시안에서 분산(σ^2)을 달리하여 z를 샘플링하면 음성 변이와 지속 시간이 제어되어 품질 저하 없이 더 표현력 있는 출력이 생성된다.
- Flowtron은 latent space에서 화자 특성과 음성 스타일을 혼합하는 보간(interpolation)을 지원하며, 보이는 화자와 보이지 않는 데이터 간의 스타일 조정도 가능하다.
- prior 증거에 기반한 포스터리어 샘플링은 보이는 화자와 보이지 않는 화자 모두에 대해 스타일 전송과 표현적 조정을 가능하게 한다.
- 가우시안 혼합 Flowtron 변형은 화자 성별 및 스타일 속성에 상응하는 해방된 구성요소를 드러내어 차원별 제어를 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.