QUICK REVIEW

[논문 리뷰] Multi-Speaker End-to-End Speech Synthesis

Jihyun Park, Kexin Zhao|arXiv (Cornell University)|2019. 07. 09.

Speech Recognition and Synthesis참고 문헌 21인용 수 25

한 줄 요약

이 논문은 공유 가능한 학습 가능한 발화자 임베딩을 모든 네트워크 구성 요소에 부가하는 편향으로 삽입하여 고음질의 발화자 특화 음성 생성을 가능하게 하는 엔드 투 엔드 텍스트-웨이브 음성 합성 모델인 멀티스피커 클라리넷을 제안한다. 이 모델은 모든 구성 요소를 동시에 최적화함으로써 자연스러움과 발화자 간 구별 가능성에서 최신 기술을 초월하며, 인간 수준에 가까운 발화자 유사도와 발화자 인식 작업에서 낮은 EER을 달성한다.

ABSTRACT

In this work, we extend ClariNet (Ping et al., 2019), a fully end-to-end speech synthesis model (i.e., text-to-wave), to generate high-fidelity speech from multiple speakers. To model the unique characteristic of different voices, low dimensional trainable speaker embeddings are shared across each component of ClariNet and trained together with the rest of the model. We demonstrate that the multi-speaker ClariNet outperforms state-of-the-art systems in terms of naturalness, because the whole model is jointly optimized in an end-to-end manner.

연구 동기 및 목표

단일 발화자 클라리넷 모델을 엔드 투 엔드 방식으로 다수의 발화자를 지원하도록 확장하기 위해.
모든 구성 요소를 함께 최적화함으로써 음성 합성 품질을 향상시키고, 별도의 모듈을 훈련시키는 대신 발화자 모델링을 통합하기 위해.
모든 네트워크 구성 요소에 삽입된 발화자 임베딩이 별도의 발화자 적응 없이도 고유한 음성 특징을 효과적으로 모델링할 수 있음을 보여주기 위해.
모델이 실제 인간의 목소리와 유사한 자연스러움과 발화자 고유성의 음성을 생성할 수 있음을 검증하기 위해.

제안 방법

모든 클라리넷 구성 요소인 인코더, 디코더, 브릿지넷, 보이서드에 공유되는 학습 가능한 저차원 발화자 임베딩을 도입한다.
인코더, 디코더, 브릿지넷, 웨이브넷 보이서드의 컨볼루션 블록에 발화자 임베딩을 덧셈 편향으로 삽입하여 발화자 특화 음성의 조건부 생성을 가능하게 한다.
숨겨진 상태에서 브릿지넷의 출력을 조건으로 하는 가우시안 자동회귀 웨이브넷을 보이서드로 사용하여 직접 엔드 투 엔드 텍스트-웨이브 생성을 가능하게 한다.
엔코더에서 보이서드로 정보를 압축하고 전달하기 위해 비인과적 컨볼루션 브릿지넷을 사용하여 시간적 맥락을 유지한다.
원시 텍스트에서 원시 웨이브폼까지 전체 모델을 엔드 투 엔드로 훈련시켜 별도의 보이서드나 파이프라인 구성 요소가 필요 없도록 한다.
성별이나 지역에 대한 명시적 지도 없이 발화자 임베딩을 적용하여 모델이 암묵적으로 구별 가능한 발화자 표현을 학습하도록 한다.

실험 결과

연구 질문

RQ1별도의 발화자 적응 모듈 없이 엔드 투 엔드 텍스트-웨이브 모델이 다수의 발화자에 대해 고음질 음성을 효과적으로 생성할 수 있는가?
RQ2모든 네트워크 구성 요소에 삽입된 공유 발화자 임베딩이 다양한 음성 특징을 얼마나 잘 모델링할 수 있는가?
RQ3텍스트-스펙트로그램 및 보이서드 단계가 별개로 존재하는 시스템과 비교해 전체 모델을 함께 최적화함으로써 자연스러움이 향상되는가?
RQ4학습된 발화자 임베딩이 발화자 분류 및 인식 성능을 통해 얼마나 잘 발화자 정체성을 유지하는가?
RQ5모델이 실제 인간의 음성과 유사한 정체성 유사도를 가지며, 구별 가능한 발화자 특화 음성을 생성할 수 있는가?

주요 결과

멀티스피커 클라리넷 모델은 보이서드의 층 수가 적음에도 불구하고 음성 합성에서 최신 기술을 초월하는 자연스러움을 달성한다.
VCTK 데이터셋에서의 발화자 분류 정확도는 생성된 샘플이 실제 녹음과 동일한 구별 가능성 수준임을 보여주며, 정답 및 기준 모델과 유사한 성능을 보인다.
발화자 인식 작업에서의 등가오류률(EER)은 실제 VCTK 녹음과 유사하며, EER 값이 1.8% (1회 등록) 및 1.2% (5회 등록)로 나타나 발화자 정체성의 높은 유지 수준을 보여준다.
2차원 공간에서 시각화된 발화자 임베딩은 성별과 지역(예: 영국 대비 북미)에 따라 명확한 군집을 형성함으로써, 모델이 의미 있는 분리된 발화자 표현을 학습하고 있음을 입증한다.
별도의 보이서드 없이 고음질의 발화자 특화 음성을 생성하며, 텍스트에서 원시 웨이브폼까지 엔드 투 엔드 훈련 및 추론을 달성한다.
성별이나 지역 기원에 대한 명시적 지도 없이도 발화자 임베딩의 잠재 공간이 구별 가능한 발화자 특징을 포착하고 있음을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.