Skip to main content
QUICK REVIEW

[논문 리뷰] Universal MelGAN: A Robust Neural Vocoder for High-Fidelity Waveform Generation in Multiple Domains

Won Jang, Dan Lim|arXiv (Cornell University)|2020. 11. 19.
Speech Recognition and Synthesis참고 문헌 24인용 수 25
한 줄 요약

이 논문은 멀티스케일 스펙트로그램 디스crimิน레이터를 멜간 프레임워크에 통합함으로써, 새로운 화자, 감정, 언어를 포함한 다양한 도메인에서 고음질 음성 생성이 가능한 강력한 신경 음성합성기인 Universal MelGAN을 제안한다. 이 방법은 스펙트럼 해상도를 향상시키고 고주파수 영역의 과도한 매끄러움을 완화하여 실시간 추론(0.028 RTF) 조건에서 멀티스피커 텍스트-to-음성 합성에서 최고 수준의 평균 평가 점수(MOS) 4.22를 달성한다.

ABSTRACT

We propose Universal MelGAN, a vocoder that synthesizes high-fidelity speech in multiple domains. To preserve sound quality when the MelGAN-based structure is trained with a dataset of hundreds of speakers, we added multi-resolution spectrogram discriminators to sharpen the spectral resolution of the generated waveforms. This enables the model to generate realistic waveforms of multi-speakers, by alleviating the over-smoothing problem in the high frequency band of the large footprint model. Our structure generates signals close to ground-truth data without reducing the inference speed, by discriminating the waveform and spectrogram during training. The model achieved the best mean opinion score (MOS) in most scenarios using ground-truth mel-spectrogram as an input. Especially, it showed superior performance in unseen domains with regard of speaker, emotion, and language. Moreover, in a multi-speaker text-to-speech scenario using mel-spectrogram generated by a transformer model, it synthesized high-fidelity speech of 4.22 MOS. These results, achieved without external domain information, highlight the potential of the proposed model as a universal vocoder.

연구 동기 및 목표

  • 멀티스피커 데이터로 훈련할 때 대형 프로파일 멜간 모델의 고주파수 대역에서의 과도한 매끄러움 문제를 해결하기 위해.
  • 추론 속도를 희생시키지 않고 웨이브폼의 정밀도와 스펙트럼 해상도를 향상시키기 위해.
  • 새로운 화자, 감정, 언어를 포함한 다양한 도메인에서 고품질 음성을 생성할 수 있는 유니버설 음성합성기를 개발하기 위해.
  • 외부 도메인 정보 없이도 본래의 도메인과 새로운 도메인 모두에서 뛰어난 성능을 달성하기 위해.
  • 경량이고 확장 가능한 아키텍처를 사용하여 실시간 고음질 텍스트-to-음성 합성 구현을 가능하게 하기 위해.

제안 방법

  • 다양한 STFT 스케일에서 작동하는 멀티스케일 스펙트로그램 디스crim인레이터를 도입하여 고주파수 대역에서의 스펙트럼 세부 정보를 향상시키고 과도한 매끄러움을 감소시킨다.
  • 원래 멜간 아키텍처를 멀티스케일 디스crim인레이터로 강화하여, 적대적 훈련 중에 웨이브폼과 스펙트로그램을 동시에 구분하도록 한다.
  • 다양한 STFT 파rameter 세트에서 스펙트럼 수렴 및 로그 크기 손실을 조합한 보조 훈련 목표로 멀티스케일 STFT 손실을 사용한다.
  • 전치 컨벌루션과 잔여 블록을 기반으로 한 생성자로, 더 나은 시간적 모델링을 위해 수신장 확장을 적용한다.
  • 적대적 손실, 멀티스케일 STFT 손실, 청각적 손실을 함께 사용하여 종단 간 훈련을 수행함으로써 세밀한 스펙트럼 세부 정보를 유지한다.
  • 멀티스피커 텍스트-to-음성 평가를 위해 트랜스포머 기반 음성 모델(JDI-T)이 예측한 멜스펙트로그램으로 음성합성기를 미세조정한다.

실험 결과

연구 질문

  • RQ1외부 도메인 정보 없이도 멜간 기반 음성합성기가 새로운 화자, 감정, 언어에 일반화될 수 있는가?
  • RQ2멀티스케일 스펙트로그램 디스crim인레이터의 추가로 고주파수 대역에서의 스펙트럼 해상도 향상과 과도한 매끄러움 감소에 어떤 기여를 하는가?
  • RQ3제안된 모델의 성능은 본래 도메인과 새로운 도메인 시나리오 모두에서 MOS 및 추론 속도 측면에서 어떻게 평가되는가?
  • RQ4멀티스피커 텍스트-to-음성 작업에서 WaveGlow, WaveRNN, FB-MelGAN과 같은 최신 기술과 비교해 볼 때 성능은 어떠한가?
  • RQ5다양하고 멀티스피커 데이터셋으로 훈련하면서도 고음질과 실시간 추론 속도를 유지할 수 있는가?

주요 결과

  • Universal MelGAN은 멀티스피커 텍스트-to-음성에서 MOS 4.22를 달성하여 WaveGlow(3.36), WaveRNN(3.06), FB-MelGAN(3.43)을 크게 앞서며 뛰어난 성능을 보였다.
  • 새로운 도메인 시나리오에서, 새로운 화자에 대해 MOS 4.15, 감정에 대해 3.91, 새로운 언어에 대해 3.67를 기록하여 모든 지표에서 실제 녹음과 가장 유사한 결과를 보였다.
  • 본래 도메인과 새로운 도메인 간 성능 격차가 가장 작았으며(예: 한국어 4.19 vs. 4.05, 영어 3.81 vs. 3.71) 강력한 내성적 안정성을 보였다.
  • NVIDIA V100 GPU에서 실시간 요소(RTF) 0.028를 달성하여 하드웨어 최적화나 품질 저하를 초래하는 가속 기법 없이도 효율적인 추론을 보였다.
  • 멀티스케일 스펙트로그램 디스crim인레이터가 대형 프로파일 모델에서 고주파 성분의 과도한 매끄러움을 효과적으로 감소시켜 스펙트럼 정밀도를 향상시켰다.
  • 모든 기준 모델 대비 본래 도메인과 새로운 도메인 평가에서 모두 뛰어난 성능을 보였으며, 외부 도메인 임베딩이 필요 없이도 유니버설 음성합성기로서의 잠재력을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.