QUICK REVIEW

[논문 리뷰] Sample Efficient Adaptive Text-to-Speech

Yutian Chen, Yannis Assael|arXiv (Cornell University)|2018. 09. 27.

Speech Recognition and Synthesis참고 문헌 47인용 수 75

한 줄 요약

이 논문은 적은 데이터로도 새로운 화자에 적합한 다중 화자 WaveNet TTS 모델을 빠르게 적응시키기 위한 메타학습 기반 전략을 도입하고, 임베딩 미세조정, 전체 모델 미세조정, 그리고 임베딩 인코더 접근법의 세 가지 적응 방법을 통해 높은 자연스러움과 화자 유사성을 달성한다.

ABSTRACT

We present a meta-learning approach for adaptive text-to-speech (TTS) with few data. During training, we learn a multi-speaker model using a shared conditional WaveNet core and independent learned embeddings for each speaker. The aim of training is not to produce a neural network with fixed weights, which is then deployed as a TTS system. Instead, the aim is to produce a network that requires few data at deployment time to rapidly adapt to new speakers. We introduce and benchmark three strategies: (i) learning the speaker embedding while keeping the WaveNet core fixed, (ii) fine-tuning the entire architecture with stochastic gradient descent, and (iii) predicting the speaker embedding with a trained neural network encoder. The experiments show that these approaches are successful at adapting the multi-speaker neural network to new speakers, obtaining state-of-the-art results in both sample naturalness and voice similarity with merely a few minutes of audio data from new speakers.

연구 동기 및 목표

제한된 데이터로 새로운 화자에 대한 빠르고 고품질의 TTS 적응의 도전과제를 동기화하고 해결한다.
고정된 최종 모델이 아니라 화자 조건부 WaveNet 프라이어를 학습하는 메타학습 프레임워크를 개발한다.
적은 예제로 새로운 음성을 맞추기 위한 세 가지 적응 전략을 탐색한다.

제안 방법

대규모 다화자 모델에서 각 화자에 대한 임베딩을 포함하도록 WaveNet 확장.
세 가지 적응 전략: (i) SEA-Emb — 코어 WaveNet를 고정하고 화자 임베딩만 미세조정, (ii) SEA-All — 임베딩과 전체 모델을 모두 미세조정, (iii) SEA-Enc — 시연 데이터로부터 새로운 화자 임베딩을 예측하는 인코더를 학습.
피치 특징에서 화자 신원 누출을 줄이기 위해 f0를 정규화.
다음의 두 개의 Held-out 적응 데이터 세트(LibriSpeech와 VCTK)를 사용하여 서로 다른 데이터 체제에서 소량 적응을 평가.
기존의 소수-shot TTS 방법과 비교하고 자연스러움(MOS)과 화자 유사성(MOS 및 TI-SV EER)을 보고한다.

실험 결과

연구 질문

RQ1다중 화자 WaveNet이 공유 코어와 화자별 임베딩으로 학습된 상태에서 보지 못한 화자에게 초에서 분 사이의 데이터만으로 신속히 적응될 수 있는가?
RQ2비모수적(SEA-Emb, SEA-All)과 모수적(SEA-Enc) 적응 전략은 자연스러움과 화자 유사성 측면에서 어떻게 비교되는가?
RQ3적응 데이터의 크기가 생성 음성의 품질과 화자 구분 가능성에 어떤 영향을 미치는가?
RQ4적응된 모델이 서로 다른 조건에서 기록된 데이터셋(LibriSpeech vs. VCTK) 간에 일반화되는가?

주요 결과

세 가지 적응 방법 모두 적응 데이터가 단초에서 몇 초에서 몇 분에 불과해도 새로운 화자에 대해 고품질의 음성을 제공한다.
SEA-All(임베딩 최적화 후 전체 모델 미세조정)은 데이터 체계와 데이터 regimes 전반에서 세 방법 중 가장 강한 성능을 보여준다.
SEA-Emb은 매개변수가 더 적고 과적합 위험이 적으며 빠르게 적응하지만, SEA-All은 충분한 적응 데이터가 있을 때 최상의 자연스러움과 화자 유사성을 달성하는 경향이 있다.
SEA-Enc은 빠르고 전사 독립적 적응 경로를 제공하지만 인코더 용량에 의해 편향될 수 있으며 보고된 설정에서 비모수적 방법에 비해 자연스러움과 화자 유사성은 일반적으로 낮게 나타난다.
정성적 분석은 생성된 목소리가 TI-SV 임베딩 공간에서 화자별로 군집하고 충분한 적응 데이터가 있는 LibriSpeech에서 실제 발화에 근접한 화자 확인 작업을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.