QUICK REVIEW

[논문 리뷰] YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone

Edresson Casanova, Julian Weber|arXiv (Cornell University)|2021. 12. 04.

Speech Recognition and Synthesis인용 수 51

한 줄 요약

YourTTS는 VITS를 기반으로 다국어 학습을 도입하고 새로운 구성요소를 제시하여 제로샷 다중 화자 TTS와 제로샷 음성 변환을 향상시키며, VCTK에서 SOTA 성능을 달성하고 제로샷 VC에서 경쟁력 있는 결과를 얻고, 매우 짧은 화자 샘플로부터의 효과적인 적응을 달성합니다.

ABSTRACT

YourTTS brings the power of a multilingual approach to the task of zero-shot multi-speaker TTS. Our method builds upon the VITS model and adds several novel modifications for zero-shot multi-speaker and multilingual training. We achieved state-of-the-art (SOTA) results in zero-shot multi-speaker TTS and results comparable to SOTA in zero-shot voice conversion on the VCTK dataset. Additionally, our approach achieves promising results in a target language with a single-speaker dataset, opening possibilities for zero-shot multi-speaker TTS and zero-shot voice conversion systems in low-resource languages. Finally, it is possible to fine-tune the YourTTS model with less than 1 minute of speech and achieve state-of-the-art results in voice similarity and with reasonable quality. This is important to allow synthesis for speakers with a very different voice or recording characteristics from those seen during training.

연구 동기 및 목표

다국어 설정에서 제로샷 다중 화자 TTS(ZS-TTS)를 향상시킨다.
저자원 및 다국어 맥락에서 제로샷 음성 변환(ZS-VC)을 개선한다.
매우 짧은 대상 화자 데이터로 새로운 화자에 대한 효과적인 적응을 가능하게 한다.
음소 입력 의존을 제거하여 언어 적용 범위를 넓힌다.
하나의 모델에서 교차 언어 전이와 코드스위치 가능성을 시연한다.

제안 방법

ZS-TTS 및 다국어 학습을 위한 여러 새로운 수정을 통해 VITS를 기반으로 한다.
음소 대신 원시 텍스트 입력을 사용하고, 트랜스포머 기반 텍스트 인코더와 문자 임베딩에 연결된 언어 임베딩을 사용한다.
모델 용량을 증가시키고(10개의 Transformer 블록, 196개의 은닉 채널) WaveNet 잔여 블록이 있는 4층 결합 디코더를 사용한다.
중간 멜 스펙트로그램을 피하기 위해 Posterior Encoder(VAE 기반)을 통한 엔드투엔드 학습으로 HiFi-GAN v1 기반 보코더와 판별기 튜닝을 수행한다.
외부 화자 임베딩이 모든 affine coupling 계층, posterior encoder, 보코더의 조건부로 작동하여 제로샷 기능을 가능하게 한다.
사전 학습된 화자 인코더를 활용한 Speaker Consistency Loss(SCL)로 생성 화자 임베딩과 실제 화자 임베딩 간 코사인 유사도를 최대화한다.
말의 리듬을 모델링하기 위한 확률적 길이 예측; 학습 중 텍스트와 잠재 공간을 정렬하기 위한 Monotonic Alignment Search(MAS).

실험 결과

연구 질문

RQ1모든 언어에서 단일 다국어 TTS 모델이 제로샷 다중 화자 합성에서 SOTA를 달성할 수 있는가?
RQ2보이지 않는 화자 및 교차 언어 전이에서 제로샷 음성 변환의 성능은 어떠한가?
RQ3명시적 화자 조건화와 Speaker Consistency Loss가 유사성 및 자연성에 미치는 영향은 무엇인가?
RQ4매우 짧은 대상 화자 데이터로 보지 못한 음성 및 녹음 조건에 적응하는 데 미치는 영향은 무엇인가?
RQ5비음소, 원시 텍스트 입력 접근 방식이 저자원 언어에서 성능을 저하시키는가 아니면 향상시키는가?

주요 결과

YourTTS는 영어 VCTK 데이터셋에서 제로샷 다중 화자 TTS 결과의 SOTA를 달성한다.
VCTK에서 제로샷 음성 변환 결과가 SOTA 모델과 경쟁력이 있다.
다국어 학습 구성은 해당 언어의 단일 화자 데이터셋으로도 대상 언어에서 제로샷 합성을 가능하게 하며 품질은 합리적이다.
대상 화자 데이터가 1분 미만일 때도 화자 유사도(Sim-MOS/SECS)가 크게 개선되며, 때로는 SECS의 ground-truth 유사성을 능가한다.
Speaker Consistency Loss는 일반적으로 유사성(SECS)을 향상시키지만 일부 경우 자연성(MOS)을 감소시킬 수 있으며, 학습 중 보지 못한 녹음 조건의 화자 적응 시 이점이 더 두드러진다.
교차 언어 VC(예: pt-en, en-pt)에서 학습 언어에 여성 화자가 부족하면 성별 균형이 성능에 미치는 영향을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.