QUICK REVIEW

[논문 리뷰] Towards Robust Neural Vocoding for Speech Generation: A Survey

Po‐Chun Hsu, Chun-hsuan Wang|arXiv (Cornell University)|2019. 12. 05.

Speech Recognition and Synthesis참고 문헌 24인용 수 23

한 줄 요약

이 종합 검토에서는 WaveNet, WaveRNN, FFTNet 및 Parallel WaveGAN의 네 가지 신경망 보이스 생성기의 다양한 훈련 및 추론 조건에서의 강건성(예: 알려지지 않은 화자, 언어, 음성 합성 작업)을 평가한다. 결과적으로 일반화 능력에서 화자 다양성이 언어보다 더 중요하며, 텍스트 음성 합성에서는 WaveNet과 WaveRNN이 뛰어나고, 음성 변환 응용에서는 Parallel WaveGAN이 다른 모델들을 능가한다.

ABSTRACT

Recently, neural vocoders have been widely used in speech synthesis tasks, including text-to-speech and voice conversion. However, when encountering data distribution mismatch between training and inference, neural vocoders trained on real data often degrade in voice quality for unseen scenarios. In this paper, we train four common neural vocoders, including WaveNet, WaveRNN, FFTNet, Parallel WaveGAN alternately on five different datasets. To study the robustness of neural vocoders, we evaluate the models using acoustic features from seen/unseen speakers, seen/unseen languages, a text-to-speech model, and a voice conversion model. We found out that the speaker variety is much more important for achieving a universal vocoder than the language. Through our experiments, we show that WaveNet and WaveRNN are more suitable for text-to-speech models, while Parallel WaveGAN is more suitable for voice conversion applications. Great amount of subjective MOS results in naturalness for all vocoders are presented for future studies.

연구 동기 및 목표

훈련 데이터와 추론 데이터 간의 분포 이탈 상황에서 신경망 보이스 생성기의 강건성에 대해 조사한다.
화자 및 언어의 다양성이 알려지지 않은 조건에서 보이스 생성기의 일반화 능력에 미치는 영향을 평가한다.
텍스트 음성 합성 및 음성 변환 작업에서 주요 네 가지 신경망 보이스 생성기—WaveNet, WaveRNN, FFTNet 및 Parallel WaveGAN—의 성능을 비교한다.
미래의 벤치마킹 및 신경망 보이스 생성 모델 개발을 위한 광범위한 주관적 MOS 결과를 제공한다.

제안 방법

단일/다중 화자 및 단일/다중 언어 데이터셋 5종에 대해 WaveNet, WaveRNN, FFTNet 및 Parallel WaveGAN을 훈련시켰다.
표준화된 평가 프로토콜을 사용하여 8비트 양자화된 웨이브폼과 평균 의견 점수(MOS) 설문 조사로 청각적 품질을 평가하였다.
Tacotron2 및 음성 변환 모델을 사용하여 인간 음성, 화자 일반화(성별 포함), 종단 간 음성 합성 작업에서 모델을 평가하였다.
표준 지표를 적용: 자연스러움에 대한 MOS, 음성 변환에서 Griffin-Lim을 히우리스틱 기준으로 삼아 신경망 보이스 생성기와 비교하였다.
모델 입력을 공정한 비교를 위해 멜스펙트로그램 입력에 맞추기 위해 수정하였다.
기존 및 알려지지 않은 도메인에서 추론를 수행하였으며, 이는 이종 언어 및 이종 화자 설정을 포함한다.

실험 결과

연구 질문

RQ1알려지지 않은 화자에서 테스트할 때 화자 다양성이 신경망 보이스 생성기의 강건성에 어떤 영향을 미치는가?
RQ2알려지지 않은 언어 상황에서 언어 다양성이 신경망 보이스 생성기의 일반화 성능에 어떤 영향을 미치는가?
RQ3상游 TTS 모델과 다른 데이터셋에서 훈련된 보이스 생성기가 텍스트 음성 합성에서 가장 우수한 성능을 내는 경우는 어떤 모델인가?
RQ4특히 도메인 외부 데이터에서 훈련된 경우, 음성 변환 작업에서 가장 높은 자연스러움과 강건성을 달성하는 신경망 보이스 생성기는 무엇인가?
RQ5분포 이탈 조건 하에서 자동귀사적(WaveNet, WaveRNN)과 비자기귀사적(Parallel WaveGAN, FFTNet) 보이스 생성기의 상대적 성능은 어떻게 되는가?

주요 결과

강건성 확보에 있어 화자 다양성이 언어보다 더 중요하다. 다양한 화자를 포함해 훈련된 모델은 알려지지 않은 화자에게 더 잘 일반화된다.
WaveNet과 WaveRNN은 상游 TTS 모델과 동일한 데이터 분포에서 훈련된 경우 텍스트 음성 합성에서 가장 높은 MOS 점수를 기록한다(예: LJ Speech). 특히 LJ 데이터에서 WaveRNN은 4.16 ± 0.18의 MOS를 기록한다.
음성 변환 작업에서 Parallel WaveGAN은 다른 모든 보이스 생성기보다 뛰어나며, VCTK 데이터에서 3.83 ± 0.20의 MOS를 기록하여 Griffin-Lim(2.72 ± 0.21 MOS)을 크게 앞선다.
WaveNet은 도메인 외부 조건에서도 가장 일관된 성능을 보이며, 느린 추론 속도에도 불구하고 뛰어난 강건성을 보여준다.
FFTNet은 전체적으로 낮은 MOS 점수(예: LJ 데이터에서 2.75 ± 0.27)를 기록하여 보편적인 보이스 생성기로서의 적합성이 떨어진다.
조건 모델(정확한 예측 정렬)은 가장 높은 MOS(4.54 ± 0.16)를 기록하여 텍스트 음성 합성 품질의 상한선으로 기능한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.