QUICK REVIEW

[논문 리뷰] YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone

Edresson Casanova, Julian Weber|arXiv (Cornell University)|2021. 12. 04.

Speech Recognition and Synthesis인용 수 30

한 줄 요약

YourTTS는 VITS를 제로샷 다중화자 및 다국어 훈련으로 확장하여 제로샷 TTS에서 VCTK의 최첨단 결과를 달성하고 제로샷 VC에서도 경쟁력을 보이며, 매우 작은 화자 샘플에서의 적응도 가능하게 한다.

ABSTRACT

YourTTS brings the power of a multilingual approach to the task of zero-shot multi-speaker TTS. Our method builds upon the VITS model and adds several novel modifications for zero-shot multi-speaker and multilingual training. We achieved state-of-the-art (SOTA) results in zero-shot multi-speaker TTS and results comparable to SOTA in zero-shot voice conversion on the VCTK dataset. Additionally, our approach achieves promising results in a target language with a single-speaker dataset, opening possibilities for zero-shot multi-speaker TTS and zero-shot voice conversion systems in low-resource languages. Finally, it is possible to fine-tune the YourTTS model with less than 1 minute of speech and achieve state-of-the-art results in voice similarity and with reasonable quality. This is important to allow synthesis for speakers with a very different voice or recording characteristics from those seen during training.

연구 동기 및 목표

다국어 설정에서 제로샷 다중화자 TTS를 진전시킨다.
목표 화자 데이터가 최소 인 경우에도 언어 간 제로샷 음성 변환을 가능하게 한다.
미확인 화자 및 녹음 조건에 대한 일반화를 개선한다.
목표 화자 발화가 1분 미만일 때 파인튜닝으로 유사성을 높인다.

제안 방법

TTS 인코더, 흐름 기반 디코더, HiFi-GAN 보코더를 포함한 엔드투엔드 설정에서 VITS 프레임워크를 기반으로 한다.
멀티링구얼 학습을 위해 입력 문자에 4차원 학습 가능한 언어 임베딩을 연결하고 입력 텍스트(음소가 아님)를 사용한다.
모델 용량을 늘려(10개의 트랜스포머 블록, 196개의 숨겨진 채널) 4계층의 affine coupling 스택과 WaveNet 잔류 블록을 사용한다.
포스터리어 인코더를 사용해 보코더와 흐름 기반 디코더를 조건화하는 잠재 z를 생성해 중간 mel-스펙트로그램 없이 엔드투엔드 학습을 가능하게 한다.
제로샷 다중화자 합성을 위해 외부 화자 임베딩에 모든 주요 구성요소를 조건화한다.
사전 학습된 화자 인코더를 사용해 실제 화자 임베딩과 생성된 화자 임베딩 간 코사인 유사도를 최대화하는 화자 일관성 손실(SCL)을 도입한다.
학습 중 자연스러운 음성 리듬과 MAS 기반 정렬을 생성하는 확률적 길이 예측기를 채택한다.
언어 조건화 임베딩과 균형된 배치를 사용한 다국어 학습을 수행하고 영어, 포르투갈어, 프랑스어 설정에서 평가한다.

실험 결과

연구 질문

RQ1다언어 설정에서 제로샷 다중화자 TTS가 높은 화자 유사성과 자연스러움으로 달성될 수 있는가?
RQ2제로샷 음성 변환이 VCTK에서 최첨단 방법과 경쟁력이 있으며 저자원 대상 언어로도 전이 가능한가?
RQ3최소한의 목표 언어 데이터와 함께 다국어 학습을 포함하면 해당 언어에서 효과적인 제로샷 합성이 가능한가?
RQ4매우 소량의 목표 화자 데이터를 사용한 파인튜닝이 화자 유사성을 더욱 높이되 품질을 손상시키지 않는가?
RQ5화자 일관성 손실이 언어 및 데이터 세트 간의 유사성과 자연성에 미치는 영향은 무엇인가?

주요 결과

영어 VCTK에서 유사성(SECS) 및 품질(MOS/Sim-MOS) 면에서 제로샷 다중화자 TTS에서 최첨단 결과를 달성한다.
평가된 쌍에서 MOS 및 Sim-MOS가 경쟁적으로 나타나 VCTK에서 제로샷 음성 변환의 SOTA와 비슷한 결과를 얻는다.
다국어 데이터(영어, 포르투갈어, 프랑스어)로 학습하고 MLS-Portuguese 및 LibriTTS를 포함한 대상 언어 데이터세트에서 평가하여 교차언어 제로샷 가능성을 시연한다.
대상 화자 발화가 1분 미만으로 파인튜닝될 때 화자 유사성이 크게 향상되며 영어와 포르투갈어 모두에서 Sim-MOS 및 SECS의 상당한 이점을 보여준다.
제로샷 음성 변환의 내부 언어 간 전송보다 동일 언어 간 전송에서 더 잘 작동하며 학습 중 성별 균형이 교차언어 결과에 영향을 준다(특히 포르투갈어 여성 전송에서 두드러짐).
저자원 언어에서의 제로샷 다중화자 TTS 가능성을 시사하고 길이 예측의 안정성 및 포르투갈어 발음의 오발음에 대한 한계를 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.