[논문 리뷰] YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone
YourTTS는 VITS를 제로샷 다중화자 및 다국어 훈련으로 확장하여 제로샷 TTS에서 VCTK의 최첨단 결과를 달성하고 제로샷 VC에서도 경쟁력을 보이며, 매우 작은 화자 샘플에서의 적응도 가능하게 한다.
YourTTS brings the power of a multilingual approach to the task of zero-shot multi-speaker TTS. Our method builds upon the VITS model and adds several novel modifications for zero-shot multi-speaker and multilingual training. We achieved state-of-the-art (SOTA) results in zero-shot multi-speaker TTS and results comparable to SOTA in zero-shot voice conversion on the VCTK dataset. Additionally, our approach achieves promising results in a target language with a single-speaker dataset, opening possibilities for zero-shot multi-speaker TTS and zero-shot voice conversion systems in low-resource languages. Finally, it is possible to fine-tune the YourTTS model with less than 1 minute of speech and achieve state-of-the-art results in voice similarity and with reasonable quality. This is important to allow synthesis for speakers with a very different voice or recording characteristics from those seen during training.
연구 동기 및 목표
- 다국어 설정에서 제로샷 다중화자 TTS를 진전시킨다.
- 목표 화자 데이터가 최소 인 경우에도 언어 간 제로샷 음성 변환을 가능하게 한다.
- 미확인 화자 및 녹음 조건에 대한 일반화를 개선한다.
- 목표 화자 발화가 1분 미만일 때 파인튜닝으로 유사성을 높인다.
제안 방법
- TTS 인코더, 흐름 기반 디코더, HiFi-GAN 보코더를 포함한 엔드투엔드 설정에서 VITS 프레임워크를 기반으로 한다.
- 멀티링구얼 학습을 위해 입력 문자에 4차원 학습 가능한 언어 임베딩을 연결하고 입력 텍스트(음소가 아님)를 사용한다.
- 모델 용량을 늘려(10개의 트랜스포머 블록, 196개의 숨겨진 채널) 4계층의 affine coupling 스택과 WaveNet 잔류 블록을 사용한다.
- 포스터리어 인코더를 사용해 보코더와 흐름 기반 디코더를 조건화하는 잠재 z를 생성해 중간 mel-스펙트로그램 없이 엔드투엔드 학습을 가능하게 한다.
- 제로샷 다중화자 합성을 위해 외부 화자 임베딩에 모든 주요 구성요소를 조건화한다.
- 사전 학습된 화자 인코더를 사용해 실제 화자 임베딩과 생성된 화자 임베딩 간 코사인 유사도를 최대화하는 화자 일관성 손실(SCL)을 도입한다.
- 학습 중 자연스러운 음성 리듬과 MAS 기반 정렬을 생성하는 확률적 길이 예측기를 채택한다.
- 언어 조건화 임베딩과 균형된 배치를 사용한 다국어 학습을 수행하고 영어, 포르투갈어, 프랑스어 설정에서 평가한다.
실험 결과
연구 질문
- RQ1다언어 설정에서 제로샷 다중화자 TTS가 높은 화자 유사성과 자연스러움으로 달성될 수 있는가?
- RQ2제로샷 음성 변환이 VCTK에서 최첨단 방법과 경쟁력이 있으며 저자원 대상 언어로도 전이 가능한가?
- RQ3최소한의 목표 언어 데이터와 함께 다국어 학습을 포함하면 해당 언어에서 효과적인 제로샷 합성이 가능한가?
- RQ4매우 소량의 목표 화자 데이터를 사용한 파인튜닝이 화자 유사성을 더욱 높이되 품질을 손상시키지 않는가?
- RQ5화자 일관성 손실이 언어 및 데이터 세트 간의 유사성과 자연성에 미치는 영향은 무엇인가?
주요 결과
- 영어 VCTK에서 유사성(SECS) 및 품질(MOS/Sim-MOS) 면에서 제로샷 다중화자 TTS에서 최첨단 결과를 달성한다.
- 평가된 쌍에서 MOS 및 Sim-MOS가 경쟁적으로 나타나 VCTK에서 제로샷 음성 변환의 SOTA와 비슷한 결과를 얻는다.
- 다국어 데이터(영어, 포르투갈어, 프랑스어)로 학습하고 MLS-Portuguese 및 LibriTTS를 포함한 대상 언어 데이터세트에서 평가하여 교차언어 제로샷 가능성을 시연한다.
- 대상 화자 발화가 1분 미만으로 파인튜닝될 때 화자 유사성이 크게 향상되며 영어와 포르투갈어 모두에서 Sim-MOS 및 SECS의 상당한 이점을 보여준다.
- 제로샷 음성 변환의 내부 언어 간 전송보다 동일 언어 간 전송에서 더 잘 작동하며 학습 중 성별 균형이 교차언어 결과에 영향을 준다(특히 포르투갈어 여성 전송에서 두드러짐).
- 저자원 언어에서의 제로샷 다중화자 TTS 가능성을 시사하고 길이 예측의 안정성 및 포르투갈어 발음의 오발음에 대한 한계를 강조한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.