QUICK REVIEW

[논문 리뷰] Modeling Multi-speaker Latent Space to Improve Neural TTS: Quick Enrolling New Speaker and Enhancing Premium Voice

Yan Deng, Lei He|arXiv (Cornell University)|2018. 12. 13.

Speech Recognition and Synthesis참고 문헌 13인용 수 30

한 줄 요약

이 논문은 공유된 스피커 잠재 공간을 활용하여 5분 미만의 데이터로도 빠르고 고품질의 음성 클로닝을 가능하게 하고, 다수의 스피커 데이터를 통한 일반화를 통해 프리미엄 음성 품질을 향상시키는 다스피커 신경 TTS 모델을 제안한다. 음성 임베딩과 스펙트럼 특징을 함께 모델링함으로써, 새로운 스피커에 대해 자연스러움 점수는 4.16, 스피커 유사도 점수는 4.64를 기록하였으며, 도메인 외 텍스트 합성에 대해서는 4.5점을 기록하여 인간이 녹음한 음성 수준(4.58)에 근접한 성능을 달성한다.

ABSTRACT

Neural TTS has shown it can generate high quality synthesized speech. In this paper, we investigate the multi-speaker latent space to improve neural TTS for adapting the system to new speakers with only several minutes of speech or enhancing a premium voice by utilizing the data from other speakers for richer contextual coverage and better generalization. A multi-speaker neural TTS model is built with the embedded speaker information in both spectral and speaker latent space. The experimental results show that, with less than 5 minutes of training data from a new speaker, the new model can achieve an MOS score of 4.16 in naturalness and 4.64 in speaker similarity close to human recordings (4.74). For a well-trained premium voice, we can achieve an MOS score of 4.5 for out-of-domain texts, which is comparable to an MOS of 4.58 for professional recordings, and significantly outperforms single speaker result of 4.28.

연구 동기 및 목표

단지 몇 분 분량의 음성 데이터로도 새로운 스피커에 대해 빠르고 고음질의 음성 클로닝을 가능하게 하기 위해.
도메인 외 및 복잡한 맥락의 문장에 대해 프리미엄 음성의 일반화 능력을 향상시키기 위해.
다스피커 모델링이 제로샷 적응 및 도메인 내 성능 향상에 미치는 이점을 탐색하기 위해.
공유된 잠재 공간 표현이 신경 TTS에서 스피커 유사도와 자연스러움을 향상시키는 방식을 조사하기 위해.
다스피커 미리학습이 데이터 의존도를 크게 줄이면서도 합성 품질을 유지하거나 향상시킬 수 있음을 입증하기 위해.

제안 방법

엔드 투 엔드 신경 TTS 모델의 스펙트럼 예측 및 보코다 제너레이터 구성 요소에 스피커 임베딩을 통합한다.
음성 데이터에서 스피커 전용 잠재 표현을 추출하기 위해 스피커 인코더 또는 고정된 룩업 테이블을 사용한다.
다양한 스피커로 구성된 코퍼스에서 모델을 엔드 투 엔드로 훈련함으로써 스피커 정체성과 음성 특징을 함께 최적화한다.
새로운 스피커당 50개의 등록 문장만으로도 소수의 샘플을 활용한 스피커 적응을 수행한다.
프리미엄 음성을 향상시키기 위해 미리학습 단계에서 다른 스피커의 데이터를 활용함으로써 도메인 외 입력에 대한 강건성을 향상시킨다.
t-SNE를 활용해 스피커 임베딩을 시각화하여 실제 스피커 녹음과의 효과적인 클러스터링과 근접성을 확인한다.

실험 결과

연구 질문

RQ1새로운 스피커에 대해 5분 미만의 데이터로도 다스피커 신경 TTS 모델이 높은 스피커 유사도와 자연스러움을 달성할 수 있는가?
RQ2단일 스피커 모델에 비해 다스피커 미리학습이 도메인 외 및 복잡한 맥락 문장에 대한 일반화 능력을 얼마나 향상시키는가?
RQ3공유된 스피커 잠재 공간 표현이 음성 클로닝 품질 향상과 데이터 요구량 감소에 얼마나 기여하는가?
RQ4다른 스피커의 데이터를 통합함으로써 잘 훈련된 프리미엄 음성의 강건성과 자연스러움이 향상되는가?
RQ5스피커 임베딩은 스피커 잠재 공간 내에서 더 나은 분리성과 클러스터링을 어떻게 도모하는가?

주요 결과

단지 50개의 등록 문장(5분 미만)만으로도 자연스러움 점수는 4.16, 스피커 유사도 점수는 4.64를 기록하였으며, 인간 녹음 기준(4.74)과 매우 유사하다.
다스피커 모델은 도메인 외 일반화 능력을 향상시켜 복잡한 문장에 대해 MOS 4.5를 기록하였으며, 단일 스피커 기준선(4.28)보다 유의미하게 높았다(p < 0.01).
다스피커 모델의 도메인 외 테스트 세트에서의 MOS(4.5)는 전문가가 녹음한 음성(4.58)과 거의 구분되지 않아 강력한 일반화 능력을 보여준다.
단지 0.5시간의 데이터로도 MOS 4.07을 기록하였으며, 15시간으로 늘어나면 4.57까지 향상되어 인간 수준에 가까워진다.
t-SNE 시각화 결과, 합성된 스피커 임베딩이 실제 스피커 임베딩과 가까이 클러스터링되어 효과적인 스피커 표현 학습이 이루어졌음을 확인할 수 있다.
특히 긴 복잡한 문장에서, 다스피커 모델은 도메인 내 및 도메인 외 설정에서 단일 스피커 기준선보다 뚜렷하게 뛰어난 성능을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.