QUICK REVIEW

[논문 리뷰] Neural Voice Cloning with a Few Samples

Sercan Ö. Arık, Jitong Chen|arXiv (Cornell University)|2018. 02. 14.

Speech Recognition and Synthesis참고 문헌 43인용 수 175

한 줄 요약

본 논문은 소수 샘플로 화자의 목소리를 복제하는 두 가지 방법을 제시한다: 화자 적응(speaker adaptation, 다중 화자 모델을 미세조정하는 방법)과 화자 인코딩(speaker encoding, 적은 데이터로 화자 임베딩을 추정하는 인코더를 학습하는 방법). 자연스러움과 유사도를 평가하고, 화자 분류 및 인증을 통한 자동 평가를 도입하며, 임베딩 조작을 통한 음성 변환도 제시한다.

ABSTRACT

Voice cloning is a highly desired feature for personalized speech interfaces. Neural network based speech synthesis has been shown to generate high quality speech for a large number of speakers. In this paper, we introduce a neural voice cloning system that takes a few audio samples as input. We study two approaches: speaker adaptation and speaker encoding. Speaker adaptation is based on fine-tuning a multi-speaker generative model with a few cloning samples. Speaker encoding is based on training a separate model to directly infer a new speaker embedding from cloning audios and to be used with a multi-speaker generative model. In terms of naturalness of the speech and its similarity to original speaker, both approaches can achieve good performance, even with very few cloning audios. While speaker adaptation can achieve better naturalness and similarity, the cloning time or required memory for the speaker encoding approach is significantly less, making it favorable for low-resource deployment.

연구 동기 및 목표

사전 학습된 다중 화자 TTS 모델을 소수 샘플로 보이지 않는 화자에 적응시키는 효과를 입증한다.
발생기(generator)를 미세조정하지 않고 제한된 오디오로 화자 임베딩을 추정하는 화자 인코딩 방식을 제안한다.
복제 품질을 평가하기 위한 화자 분류 및 화자 검증에 기반한 자동 평가 방법을 도입한다.
임베딩 조작을 통한 음성 변형(성별 및 악센트 변환)을 선보인다.
복제 품질, 복제 시간 및 자원 요구량 간의 트레이드오프를 논의한다.

제안 방법

공유 가중치 W와 화자별 임베딩 e_s로 매개된 다중 화자 생성 모델(Deep Voice 3를 기반) 채택.
두 가지 클로닝 전략을 고찰한다: (a) 임베딩만 또는 전체 모델을 미세조정하여 화자 적응; (b) 복제 음원에서 e_s를 예측하는 별도 인코더 g(A_s; Θ)를 학습하여 화자 인코딩.
사전에 학습된 모델에서 얻은 임베딩과 일치하도록 L1 손실로 화자 인코더를 학습하여 보이지 않는 화자에 대한 제로샷 추론을 가능하게 한다.
다중 클로닝 샘플로부터 정보를 모으기 위해 멜-스펙트로그램, 프리넷, 시간적 합성곱, 다중헤드 셀프 어텐션 메커니즘을 사용한다.
수작업 MOS 및 유사도 테스트와 함께 판별 모델(화자 분류 및 화자 검증)을 사용하여 클로닝 품질을 평가한다.
잠재 임베딩을 조작하여 성별과 악센트를 바꾸는 임베딩 기반 음성 변형을 시연한다.

실험 결과

연구 질문

RQ1사전 학습된 다중 화자 TTS 모델을 소수 샘플만으로 보이지 않는 화자에게 빠르게 적응시킬 수 있는가?
RQ2생성기를 미세조정하지 않고도 효과적인 화자 임베딩을 생성하는 전용 화자 인코더가 가능한가?
RQ3제한된 데이터일 때 특히 자연스러움과 화자 유사성 측면에서 클로닝 접근법들이 어떻게 비교되는가?
RQ4화자 분류 및 검증과 같은 자동 판별 평가가 클로닝 품질을 신뢰할 만큼 평가할 수 있는가?
RQ5임베딩을 조작하여 제어 가능한 음성 변형(성별, 악센트)을 달성할 수 있는가?

주요 결과

적은 수의 클로닝 오디오로도 화자 적응과 화자 인코딩 모두 좋은 자연스러움과 유사성을 달성한다.
전체 모델 적응은 일반적으로 더 많은 클로닝 데이터에서 더 나은 유사성을 제공하는 반면, 임베딩만의 적응은 학습 속도가 더 빠르다.
화자 인코딩은 클로닝 시간과 메모리 사용을 현저히 줄여 저자원 배치에 유리하다.
화자 분류 및 검증을 이용한 자동 평가가 사람의 클로닝 품질 판단과 상관관계가 있다.
임베딩 조작은 복제 음성에서 이해 가능한 성별 및 악센트 변환을 생성할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.