QUICK REVIEW

[논문 리뷰] Guided-TTS 2: A Diffusion Model for High-quality Adaptive Text-to-Speech with Untranscribed Data

Sung‐Won Kim, Heeseung Kim|arXiv (Cornell University)|2022. 05. 30.

Speech Recognition and Synthesis인용 수 21

한 줄 요약

Guided-TTS 2는 비전사 데이터로 학습된 확산 기반의 적응형 TTS 모델을 도입하고 짧은 대상 화자 참조에서 미세 조정하여 단일 화자 TTS 품질과 경쟁력을 달성하며, 제로샷 적응에서도 기존 적응 baselines보다 우수하게 동작합니다.

ABSTRACT

We propose Guided-TTS 2, a diffusion-based generative model for high-quality adaptive TTS using untranscribed data. Guided-TTS 2 combines a speaker-conditional diffusion model with a speaker-dependent phoneme classifier for adaptive text-to-speech. We train the speaker-conditional diffusion model on large-scale untranscribed datasets for a classifier-free guidance method and further fine-tune the diffusion model on the reference speech of the target speaker for adaptation, which only takes 40 seconds. We demonstrate that Guided-TTS 2 shows comparable performance to high-quality single-speaker TTS baselines in terms of speech quality and speaker similarity with only a ten-second untranscribed data. We further show that Guided-TTS 2 outperforms adaptive TTS baselines on multi-speaker datasets even with a zero-shot adaptation setting. Guided-TTS 2 can adapt to a wide range of voices only using untranscribed speech, which enables adaptive TTS with the voice of non-human characters such as Gollum in extit{"The Lord of the Rings"}.

연구 동기 및 목표

Target 화자 데이터 필요량을 최소화하고 전사 필요를 제거하는 적응형 TTS를 주도한다.
대규모 비전사 데이터를 활용해 화자 조건부 확산 모델을 사전 학습한다.
참조 음성에 대한 최소한의 미세 조정으로 새로운 화자에 빠르게 적응할 수 있도록 한다.
제로샷 및 짧은 데이터 적응으로도 경쟁력 있는 품질과 화자 유사성을 달성한다.

제안 방법

다양한 화자 무라벨 데이터에서 화자 조건부 DDPM을 사전 학습해 다양한 화자 음성 분포를 모델링한다.
분류기-없는 가이던스를 사용해 별도의 분류기가 필요한 없이 화자 조건 부여를 가능하게 하고 화자 임베딩을 포함한다.
대상 화자의 10초 비전사 참조 음성에서 사전 학습된 확산 모델을 미세 조정해 모델을 적응시킨다.
프레임 수준의 음운 분류기와 지속 시간 예측기를 확산 프로세스에 맞춰 통합해 정확한 발음을 달성한다.
샘플링 중 발음과 음색을 보존하기 위해 텍스트 조건과 화자 가이던스를 결합한 노름 기반 가이던스를 적용한다.
적응형 TTS 중 역 확산을 대상 음운 sequence와 대상 화자 임베딩으로 텍스트 그래디언트 스케일 γT와 화자 그래디언트 스케일 γS를 사용해 조건화한다.

실험 결과

연구 질문

RQ1확인되지 않은 데이터로 훈련된 확산 기반 모델이 비라벨 참조 음성만으로 새로운 화자에 적응할 수 있는가?
RQ2분류기-없는 가이던스와 노름 기반 가이던스가 적응형 TTS에서 발음 정확도와 화자 유사성에 어떤 영향을 미치는가?
RQ3미세 조정 기간이 적응 품질과 발음 보존에 미치는 영향은 무엇인가?
RQ4Guided-TTS 2가 제로샷 설정 및 다화자 데이터셋에서 기존의 적응형 TTS 베이스라인과 비교해 어떤 성과를 보이는가?
RQ5대본(transcripts) 없이도 YouTube 클립과 같은 실제 unlabeled 오디오를 적응형 TTS에 효과적으로 사용할 수 있는가?

주요 결과

10초의 비전사 참조 음성으로도 Guided-TTS 2는 LJSpeech에서 단일 화자 TTS 베이스라인과 비교해 동등한 품질 및 화자 유사성을 달성한다.
LibriTTS 및 VCTK에서 제로샷 Guided-TTS 2는 화자 유사성 측면에서 다른 제로샷 적응 baselines를 능가한다.
미세 조정은 화자 유사성을 개선하지만 발음 정확도가 약간 감소할 수 있어 음색과 텍스트 충실도 간의 트레이드오프를 시사한다.
LibriTTS에 Libri-Light 데이터를 추가하면 LibriTTS만 사용했을 때보다 제로샷 성능이 향상된다.
Guided-TTS 2는 YouTube 클립과 같은 실제 환경의 오디오 참조에도 적응할 수 있어 전사 없이도 고품질의 음성을 생성한다.
다양한 데이터셋에서 Guided-TTS 2는 소리 품질과 발음 지표에서 적응형 TTS 베이스라인 YourTTS 및 Meta-StyleSpeech를 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.