Skip to main content
QUICK REVIEW

[논문 리뷰] Sample Efficient Adaptive Text-to-Speech

Yutian Chen, Yannis Assael|arXiv (Cornell University)|2018. 09. 27.
Speech Recognition and Synthesis참고 문헌 47인용 수 75
한 줄 요약

이 논문은 적은 데이터로도 새로운 화자에 적합한 다중 화자 WaveNet TTS 모델을 빠르게 적응시키기 위한 메타학습 기반 전략을 도입하고, 임베딩 미세조정, 전체 모델 미세조정, 그리고 임베딩 인코더 접근법의 세 가지 적응 방법을 통해 높은 자연스러움과 화자 유사성을 달성한다.

ABSTRACT

We present a meta-learning approach for adaptive text-to-speech (TTS) with few data. During training, we learn a multi-speaker model using a shared conditional WaveNet core and independent learned embeddings for each speaker. The aim of training is not to produce a neural network with fixed weights, which is then deployed as a TTS system. Instead, the aim is to produce a network that requires few data at deployment time to rapidly adapt to new speakers. We introduce and benchmark three strategies: (i) learning the speaker embedding while keeping the WaveNet core fixed, (ii) fine-tuning the entire architecture with stochastic gradient descent, and (iii) predicting the speaker embedding with a trained neural network encoder. The experiments show that these approaches are successful at adapting the multi-speaker neural network to new speakers, obtaining state-of-the-art results in both sample naturalness and voice similarity with merely a few minutes of audio data from new speakers.

연구 동기 및 목표

  • 제한된 데이터로 새로운 화자에 대한 빠르고 고품질의 TTS 적응의 도전과제를 동기화하고 해결한다.
  • 고정된 최종 모델이 아니라 화자 조건부 WaveNet 프라이어를 학습하는 메타학습 프레임워크를 개발한다.
  • 적은 예제로 새로운 음성을 맞추기 위한 세 가지 적응 전략을 탐색한다.

제안 방법

  • 대규모 다화자 모델에서 각 화자에 대한 임베딩을 포함하도록 WaveNet 확장.
  • 세 가지 적응 전략: (i) SEA-Emb — 코어 WaveNet를 고정하고 화자 임베딩만 미세조정, (ii) SEA-All — 임베딩과 전체 모델을 모두 미세조정, (iii) SEA-Enc — 시연 데이터로부터 새로운 화자 임베딩을 예측하는 인코더를 학습.
  • 피치 특징에서 화자 신원 누출을 줄이기 위해 f0를 정규화.
  • 다음의 두 개의 Held-out 적응 데이터 세트(LibriSpeech와 VCTK)를 사용하여 서로 다른 데이터 체제에서 소량 적응을 평가.
  • 기존의 소수-shot TTS 방법과 비교하고 자연스러움(MOS)과 화자 유사성(MOS 및 TI-SV EER)을 보고한다.

실험 결과

연구 질문

  • RQ1다중 화자 WaveNet이 공유 코어와 화자별 임베딩으로 학습된 상태에서 보지 못한 화자에게 초에서 분 사이의 데이터만으로 신속히 적응될 수 있는가?
  • RQ2비모수적(SEA-Emb, SEA-All)과 모수적(SEA-Enc) 적응 전략은 자연스러움과 화자 유사성 측면에서 어떻게 비교되는가?
  • RQ3적응 데이터의 크기가 생성 음성의 품질과 화자 구분 가능성에 어떤 영향을 미치는가?
  • RQ4적응된 모델이 서로 다른 조건에서 기록된 데이터셋(LibriSpeech vs. VCTK) 간에 일반화되는가?

주요 결과

  • 세 가지 적응 방법 모두 적응 데이터가 단초에서 몇 초에서 몇 분에 불과해도 새로운 화자에 대해 고품질의 음성을 제공한다.
  • SEA-All(임베딩 최적화 후 전체 모델 미세조정)은 데이터 체계와 데이터 regimes 전반에서 세 방법 중 가장 강한 성능을 보여준다.
  • SEA-Emb은 매개변수가 더 적고 과적합 위험이 적으며 빠르게 적응하지만, SEA-All은 충분한 적응 데이터가 있을 때 최상의 자연스러움과 화자 유사성을 달성하는 경향이 있다.
  • SEA-Enc은 빠르고 전사 독립적 적응 경로를 제공하지만 인코더 용량에 의해 편향될 수 있으며 보고된 설정에서 비모수적 방법에 비해 자연스러움과 화자 유사성은 일반적으로 낮게 나타난다.
  • 정성적 분석은 생성된 목소리가 TI-SV 임베딩 공간에서 화자별로 군집하고 충분한 적응 데이터가 있는 LibriSpeech에서 실제 발화에 근접한 화자 확인 작업을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.