QUICK REVIEW

[논문 리뷰] Speaker-adaptive neural vocoders for statistical parametric speech synthesis systems.

Eunwoo Song, Jinseob Kim|arXiv (Cornell University)|2018. 11. 08.

Speech Recognition and Synthesis참고 문헌 22인용 수 2

한 줄 요약

이 논문은 표본화자 데이터가 제한된 경우에도 음성 품질을 향상시키기 위해 통계적 매개변수 TTS 시스템에 적응하는 화자-적응 신경 음성합성기(네트워크)를 제안한다. 10분 분량의 음성 데이터만으로도 특정 화자에 대해 피지컬 모델을 미세조정하는 방식으로, 한국어에서 남성 화자에 대해 MOS 점수 3.80, 여성 화자에 대해 3.77을 기록하며, 기존의 소스-필터 음성합성기와 표준 WaveNet 기반 접근 방식을 모두 능가한다.

ABSTRACT

This paper proposes speaker-adaptive neural vocoders for parametric text-to-speech (TTS) systems. Recently proposed WaveNet-based neural vocoding systems successfully generate a time sequence of speech signal with an autoregressive framework. However, it remains a challenge to synthesize high-quality speech when the amount of a target speaker's training data is insufficient. To generate more natural speech signals with the constraint of limited training data, we propose a speaker adaptation task with an effective variation of neural vocoding models. In the proposed method, a speaker-independent training method is applied to capture universal attributes embedded in multiple speakers, and the trained model is then optimized to represent the specific characteristics of the target speaker. Experimental results verify that the proposed TTS systems with speaker-adaptive neural vocoders outperform those with traditional source-filter model-based vocoders and those with WaveNet vocoders, trained either speaker-dependently or speaker-independently. In particular, our TTS system achieves 3.80 and 3.77 MOS for the Korean male and Korean female speakers, respectively, even though we use only ten minutes' speech corpus for training the model.

연구 동기 및 목표

목표 화자에 대한 학습 데이터가 부족할 경우 저품질 음성 합성 문제를 해결한다.
최소한의 화자 특화 데이터로도 통계적 매개변수 TTS 시스템에서 합성 음성의 자연스러움과 품질을 향상시킨다.
화자 독립적 사전 학습을 활용하고 제한된 데이터로 새로운 화자에 효과적으로 적응하는 신경 음성합성기를 개발한다.
화자 종속 및 화자 독립 설정 모두에서 기존의 음성합성기, 특히 WaveNet 기반 및 소스-필터 모델을 능가한다.

제안 방법

다양한 화자들의 데이터를 기반으로 신경 음성합성기 모델을 학습하여 화자 독립적인 방식으로 보편적인 음성 특징을 학습한다.
목표 화자에 대한 제한된 음성 데이터(10분)로 사전 학습된 모델을 미세조정하여 화자 특화 특징에 적응시킨다.
음성 특징에서 고해상도 음성 웨이브폼을 생성하기 위해 자동회귀적 WaveNet 스타일 아키텍처를 사용한다.
추론 중에 목표 화자의 데이터에 기반한 화자 임베딩을 조건부로 설정함으로써 화자 적응을 구현한다.
재구성 손실과 청각적 손실을 조합하여 최적화함으로써 자연스러움을 향상시킨다.
적응된 음성합성기를 통계적 매개변수 TTS 파이프라인에 통합하여 종단 간 음성 합성 시스템을 완성한다.

실험 결과

연구 질문

RQ1목표 화자에 대한 데이터가 극히 적을 경우, 화자-적응 신경 음성합성기가 음성 품질을 크게 향상시킬 수 있는가?
RQ2청각적 품질 측면에서 화자-적응 학습은 화자 독립 또는 화자 종속 학습보다 어떻게 비교되는가?
RQ3사전 학습된 화자 독립 모델을 10분 분량의 데이터로 효과적으로 새로운 화자에 대해 미세조정할 수 있는가?
RQ4제안된 방법이 낮은 데이터 환경에서 기존의 전통적 소스-필터 음성합성기와 표준 WaveNet 기반 음성합성기 모두를 능가하는가?

주요 결과

제안된 화자-적응 신경 음성합성기는 한국어 남성 화자에 대해 단 10분의 학습 데이터로 평균 평가 점수(MOS) 3.80을 기록한다.
한국어 여성 화자에 대해서는 MOS 3.77을 기록하여 극히 적은 데이터로도 높은 자연스러움을 입증한다.
기존의 전통적 소스-필터 기반 음성합성기와 화자 종속 또는 화자 독립 모드로 학습된 표준 WaveNet 음성합성기 모두를 능가한다.
특히 낮은 데이터 환경에서 기존의 기준 모델 대비 뚜렷한 품질 향상을 이룬다.
미세조정 과정을 통해 화자 특화 특징을 효과적으로 포착하여 더 자연스럽고 화자 일관성이 높은 음성 합성을 가능하게 한다.
사전 학습된 화자 독립 모델을 바탕으로 목표 화자에 대해 정밀하게 적응시키는 것이, 제한된 데이터에서부터 학습을 시작하는 것보다 훨씬 뛰어난 성능을 낸다는 점을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.