[논문 리뷰] Learning pronunciation from a foreign language in speech synthesis networks
이 논문은 저자원 언어 TTS의 품질을 향상시키기 위해 언어 간 음소 유사성을 활용하는 다국어 음성 합성 프레임워크를 제안한다. 고자원 언어 데이터에서 사전 훈련하고 저자원 언어 데이터로 미세조정함으로써, 모델은 언어 간 공통의 음소 임베딩을 학습하여 다국어 음성 합성 품질을 크게 향상시키며, 10개 언어로 일반화된다.
Although there are more than 6,500 languages in the world, the pronunciations of many phonemes sound similar across the languages. When people learn a foreign language, their pronunciation often reflects their native language's characteristics. This motivates us to investigate how the speech synthesis network learns the pronunciation from datasets from different languages. In this study, we are interested in analyzing and taking advantage of multilingual speech synthesis network. First, we train the speech synthesis network bilingually in English and Korean and analyze how the network learns the relations of phoneme pronunciation between the languages. Our experimental result shows that the learned phoneme embedding vectors are located closer if their pronunciations are similar across the languages. Consequently, the trained networks can synthesize the English speakers' Korean speech and vice versa. Using this result, we propose a training framework to utilize information from a different language. To be specific, we pre-train a speech synthesis network using datasets from both high-resource language and low-resource language, then we fine-tune the network using the low-resource language dataset. Finally, we conducted more simulations on 10 different languages to show it is generally extendable to other languages.
연구 동기 및 목표
- 다국어 음성 합성 네트워크가 언어 간 발음 유사성을 어떻게 학습하고 표현하는지 조사한다.
- 훈련 데이터가 부족하여 성능이 저하되는 저자원 언어 TTS 문제를 해결한다.
- 고자원 언어 데이터를 활용해 공통된 음소 표현을 통해 저자원 언어 TTS를 향상시키는 사전 훈련 프레임워크를 개발한다.
- 영어와 한국어를 초과하는 다양한 언어 조합에서도 제안된 방법의 일반화 능력을 검증한다.
제안 방법
- 쌍체의 영어 및 한국어 텍스트-음성 데이터셋을 기반으로 다국어 다화자 Tacotron 모델을 훈련하며, 언어 간 공통된 음소 임베딩 사전을 사용한다.
- 음소 임베딩을 정규화하여 발음 표현으로 사용함으로써, 언어 간 음소 유사성을 비교할 수 있도록 한다.
- 모델은 화자 임베딩 벡터를 사용하여 음성 특성과 언어적 내용을 분리함으로써, 다양한 화자와 언어의 음성 합성을 가능하게 한다.
- 이중 단계 훈련 프로세스를 사용한다: 고자원 언어 데이터(예: 영어)에서의 사전 훈련과 저자원 언어 데이터(예: 한국어)에서의 미세조정(제한된 시간의 음성 데이터로)
- Common Voice 데이터셋을 활용해 10개 추가 언어로 프레임워크를 확장하였으며, 각 언어당 2시간의 미세조정 데이터를 사용한다.
- 성능 평가에는 인간 선호도 테스트(7점 척도)와 Google의 음성 인식 API를 사용한 자동 단어 오류율(WER)을 활용한다.
실험 결과
연구 질문
- RQ1다국어 음성 합성 네트워크는 서로 다른 언어의 음소 간 발음 유사성을 어떻게 표현하는가?
- RQ2고자원 언어에서의 사전 훈련이 저자원 언어의 TTS 모델 성능을 향상시킬 수 있는가?
- RQ3공동 화자 없이도 학습된 음소 임베딩 공간이 다국어 음소 유사성을 반영하는가?
- RQ4제안된 사전 훈련 프레임워크는 다양한 언어 조합에 얼마나 일반화되는가?
- RQ5고자원 언어 사전 훈련과 제한된 대상 언어 데이터만으로 저자원 언어에서 자연스러운 음성을 생성할 수 있는가?
주요 결과
- 발음이 유사한 언어의 음소 임베딩은 임베딩 공간에서 더 가까이 군집화되며, 이는 모델이 다국어 음소 관계를 학습하고 있음을 시사한다.
- 제안된 사전 훈련 프레임워크(PA-HL)는 주관적 선호도 테스트와 객관적 WER 모두에서 베이스라인 모델을 뛰어넘었으며, 10시간의 미세조정 데이터에서 15.0%의 WER를 기록했다.
- 0.4시간의 미세조정 데이터를 사용할 때 선호도 테스트에서 PA-HL은 베이스라인 모델보다 54.0%의 비교에서 더 선호되었다.
- 10시간의 미세조정 조건에서 PA-HL은 모든 언어 조합에서 테스트된 모든 모델보다 높은 68.3%의 선호도 비율을 기록했다.
- 10개 추가 언어로의 일반화가 효과적으로 이루어졌으며, 선호도 테스트에서 PA-HL은 10개 언어 중 9개에서 PD-H를 앞섰다. 이는 광범위한 적용 가능성을 확인한다.
- 부족한 데이터로 훈련된 모델(예: 0.4시간)은 주로 주의 분할 정렬 문제를 겪었지만, PA-HL은 모든 데이터 설정에서 안정적인 훈련과 성능을 유지했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.