[논문 리뷰] Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis
논문은 보이스 특성 표현을 합성으로부터 분리하는 다성우 TTS 시스템을 제시하며, 사전 학습된 화자 인코더를 사용해 Tacotron 2 기반 합성기와 WaveNet 보코더를 통해 보지 않은 화자의 제로샷 합성을 가능하게 한다. 또한 크고 다양한 비라벨 스피커 데이터 세트가 새로운 목소리에 대한 일반화를 개선한다는 것을 보인다.
We describe a neural network-based system for text-to-speech (TTS) synthesis that is able to generate speech audio in the voice of many different speakers, including those unseen during training. Our system consists of three independently trained components: (1) a speaker encoder network, trained on a speaker verification task using an independent dataset of noisy speech from thousands of speakers without transcripts, to generate a fixed-dimensional embedding vector from seconds of reference speech from a target speaker; (2) a sequence-to-sequence synthesis network based on Tacotron 2, which generates a mel spectrogram from text, conditioned on the speaker embedding; (3) an auto-regressive WaveNet-based vocoder that converts the mel spectrogram into a sequence of time domain waveform samples. We demonstrate that the proposed model is able to transfer the knowledge of speaker variability learned by the discriminatively-trained speaker encoder to the new task, and is able to synthesize natural speech from speakers that were not seen during training. We quantify the importance of training the speaker encoder on a large and diverse speaker set in order to obtain the best generalization performance. Finally, we show that randomly sampled speaker embeddings can be used to synthesize speech in the voice of novel speakers dissimilar from those used in training, indicating that the model has learned a high quality speaker representation.
연구 동기 및 목표
- 짧고 전사되지 않은 참조 음성으로부터 화자 특성을 포착하는 화자 인코더를 학습한다.
- 합성 데이터에 대한 전사가 없는 상태에서 화자 임베딩에 조건된 다성우 TTS 합성기를 학습한다.
- 학습 중 보지 못한 화자에 대한 제로샷 보이스 전송을 시연한다.
- MOS 및 화자 검증 지표를 사용하여 자연스러움과 화자 유사성을 평가한다.
- 화자 인코더 학습 데이터의 규모와 다양성이 전이 품질에 어떻게 영향을 미치는지 분석한다.
제안 방법
- 세 가지 구성요소를 독립적으로 학습한다: 전사되지 않은 노이즈 데이터로 화자 검증에 학습된 화자 인코더; 화자 임베딩에 조건된 Tacotron 2 기반 시퀀스-투-시퀀스 합성기; mel 스펙트로그램을 파형으로 변환하는 WaveNet 보코더.
- 화자 임베딩은 짧은 참조 음성(초 단위)에서 얻어지며 합성기를 각 시간 스텝에서 조건화하는 데 사용된다.
- 학습은 전달학습 설정을 사용하며 합성기를 학습할 때 화자 인코더는 고정되고, 문자-투-스펙트로그램 타깃은 음소 시퀀스에서 도출된다.
- 잡음 데이터에 대한 강건성을 개선하기 위해 합성기 타깃을 학습하는 데 L2(스펙트로그램)와 L1 손실의 결합을 사용한다.
- 평가는 자연스러움과 유사성에 대한 주관적 MOS와 보지 못한 화자에 대한 객관적 화자 검증 EER을 포함한다.
실험 결과
연구 질문
- RQ1대규모의 비전사 데이터에서 학습된 독립적으로 학습된 화자 인코더가 보지 않은 화자를 위한 제로샷 다성우 TTS를 가능하게 할 수 있는가?
- RQ2화자 인코더 학습 데이터의 다양성과 크기가 합성 음성의 자연스러움과 화자 유사성에 어떤 영향을 미치는가?
- RQ3훈련 중 보지 못한 음성으로 화자 특성을 어느 정도까지 전이할 수 있는가, 서로 다른 잡음 수준과 억양을 가진 데이터 세트를 포함하여?
주요 결과
- 제안된 모델은 VCTK와 LibriSpeech에서 보인 화자와 보지 못한 화자에 대해 대략 4.0 MOS를 달성한다.
- LibriSpeech에서 보지 못한 화자의 자연스러움은 4.12 MOS에 도달하여 보인 화자 성능에 근접하고, VCTK은 더 깨끗한 데이터로 인해 더 강한 유사성을 보인다.
- 보지 못한 화자에 대해 화자 유사성이 저하되며 LibriSpeech로 테스트할 때 MOS가 낮아진다; 합성기가 더 다양한 화자 데이터로 학습될 때 유사성이 향상된다(예: LibriSpeech + VoxCeleb).
- 수천 명의 화자에서 학습된 크고 다양한 사전 학습 화자 인코더를 사용하면 제로샷 전송 품질이 크게 향상되고 학습 데이터와 다른 허구의 화자에서의 생성이 가능해진다.
- 데이터셋 간 평가에서 LibriSpeech로 학습된 합성기가 보지 못한 데이터에 대해 VCTK 학습된 것보다 일반화가 더 잘 되며, 다양한 학습 소스의 중요성을 강조한다.
- 화자 검증 EER은 LibriSpeech로 학습된 합성기가 VCTK로 학습된 것보다 실제 화자와 더 비슷한 음성을 생성하며, 합성 음성은 일반적으로 실제 음성과 혼동되지 않는 것으로 나타난다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.