QUICK REVIEW

[논문 리뷰] Learning to Speak Fluently in a Foreign Language: Multilingual Speech Synthesis and Cross-Language Voice Cloning

Yu Zhang, Ron J. Weiss|arXiv (Cornell University)|2019. 07. 09.

Speech Recognition and Synthesis참고 문헌 28인용 수 26

한 줄 요약

이 논문은 타코트론2 기반의 다국어 텍스트-to-음성 모델을 제안하며, 이는 번역된 데이터 없이도 높은 품질의 유창한 음성 합성과 다국어 간 음성 클로닝(한 언어에서 다른 언어로 화자 음성 전이)을 가능하게 한다. 음소 입력 표현과 화자 적대적 손실을 통해 언어와 화자 신원을 분리함으로써, 영어와 중국어처럼 서로 거리가 먼 언어 간에도 거의 천연스럽고 높은 유사도를 가진 음성 클로닝을 달성한다.

ABSTRACT

We present a multispeaker, multilingual text-to-speech (TTS) synthesis model based on Tacotron that is able to produce high quality speech in multiple languages. Moreover, the model is able to transfer voices across languages, e.g. synthesize fluent Spanish speech using an English speaker's voice, without training on any bilingual or parallel examples. Such transfer works across distantly related languages, e.g. English and Mandarin. Critical to achieving this result are: 1. using a phonemic input representation to encourage sharing of model capacity across languages, and 2. incorporating an adversarial loss term to encourage the model to disentangle its representation of speaker identity (which is perfectly correlated with language in the training data) from the speech content. Further scaling up the model by training on multiple speakers of each language, and incorporating an autoencoding input to help stabilize attention during training, results in a model which can be used to consistently synthesize intelligible speech for training speakers in all languages seen during training, and in native or foreign accents.

연구 동기 및 목표

이중 언어 화자나 병렬 예제가 필요 없이 유일한 단국어 훈련 데이터만을 사용하여 고품질의 다국어 텍스트-to-음성 합성을 가능하게 하기.
훈련 데이터에서 화자 신원과 언어가 완벽하게 상관되어 있음에도 불구하고, 화자의 음성을 외국어로 전이하는 다국어 간 음성 클로닝을 달성하기.
엔드 투 엔드 TTS에서 화자 신원과 언어 표현을 분리하여, 발음과 음성 신원을 별도로 제어할 수 있도록 하기.
변동형 오토인코더 잔차 인코더를 통해 다국어 환경에서의 모델 안정성과 주의 분석 정렬을 향상시키기.
다양한 입력 표현 방식(글자, 바이트, 음소)이 다국어 TTS 성능과 음성 클로닝 품질에 미치는 영향을 평가하기.

제안 방법

모델은 언어 간 발음 지식 공유를 장려하고 일반화 능력을 향상시키기 위해 음소 기반 입력 표현을 사용한다.
화자 신원과 언어를 분리하기 위해 화자 적대적 손실을 도입하여, 모델이 화자 불변 표현을 학습하도록 유도한다.
언어 및 화자 임베딩은 합성 과정에서 명시적으로 조건화되어, 발음과 음성 신원을 별도로 제어할 수 있도록 한다.
변동형 오토인코더 스타일의 잔차 인코더를 사용하여, 훈련 중 목표 스펙트로그램에서 유도된 잠재 표현에 조건을 주어 주의 분석의 안정성을 높인다.
언어별 특화된 구성 요소 없이 단일 스테이지에서 훈련되며, 모든 언어에 대해 통합된 아키텍처를 사용한다.
예측된 스펙트로그램에서 고음질 웨이브폼을 생성하기 위해 별도로 WaveRNN 볼카디오르 훈련한다.

실험 결과

연구 질문

RQ1이중 언어 훈련 데이터가 전혀 없이도 다국어 TTS 모델이 화자의 음성을 외국어로 전이할 수 있는가?
RQ2입력 표현 방식의 선택(글자, 바이트, 음소)이 다국어 간 음성 클로닝과 음성 자연스러움에 어떤 영향을 미치는가?
RQ3적대적 훈련이 단국어 화자를 사용하는 다국어 TTS 모델에서 화자 신원과 언어를 효과적으로 분리하는 데 기여하는가?
RQ4언어 임베딩이 음성 유사도를 떨어뜨리지 않고 발음 전이를 제어하는 데 얼마나 효과적인가?
RQ5잔차 인코더를 통합함으로써 다국어 TTS에서 주의 분석 안정성과 음성 품질이 향상되는가?

주요 결과

음소 기반 입력 표현이 가장 높은 자연스러움과 가장 낮은 발음 불일치를 달성했으며, 평가자들의 평가에서 외국어에서의 자연스럽고 천연스러운 발음이 확인되었다.
화자 적대적 손실 덕분에 성공적인 다국어 간 음성 클로닝이 가능했으며, 영어→스페인어 및 영어→중국어 전이에서 유사도 MOS가 4.0 이상을 기록했고, 서로 거리가 먼 언어 간에도 성능이 유지되었다.
화자 및 언어 임베딩을 모두 사용한 전체 모델을 사용할 경우, 모든 언어 쌍에서 음성 클로닝의 자연스러움 MOS가 3.85 이상을 유지하여 뛰어난 일반화 능력을 입증했다.
영어→영어 합성에서는 높은 자연스러움(MOS > 4.3)을 달성했고, 영어→스페인어에서는 높은 유사도(MOS > 4.2)를 기록하여 기준 성능에 근접했다.
변동형 잔차 인코더를 제거하면 영어→중국어 음성 클로닝에서 자연스러움이 0.4 MOS 포인트 감소했으며, 이는 주의 분석 안정성 향상과 단어 누락 또는 비자연스러운 정지 방지를 위한 핵심 기여를 확인시켰다.
화자 임베딩의 시각화 결과, 일치하는 언어와 화자 신원의 클러스터가 밀집해 있음을 확인했고, 불일치하는 언어 임베딩은 발음 변화를 유도함으로써 분리가 성공적으로 이루어졌음을 검증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.