QUICK REVIEW

[논문 리뷰] Universal MelGAN: A Robust Neural Vocoder for High-Fidelity Waveform Generation in Multiple Domains

Won Jang, Dan Lim|arXiv (Cornell University)|2020. 11. 19.

Speech Recognition and Synthesis참고 문헌 24인용 수 25

한 줄 요약

이 논문은 멀티스케일 스펙트로그램 디스crimิน레이터를 멜간 프레임워크에 통합함으로써, 새로운 화자, 감정, 언어를 포함한 다양한 도메인에서 고음질 음성 생성이 가능한 강력한 신경 음성합성기인 Universal MelGAN을 제안한다. 이 방법은 스펙트럼 해상도를 향상시키고 고주파수 영역의 과도한 매끄러움을 완화하여 실시간 추론(0.028 RTF) 조건에서 멀티스피커 텍스트-to-음성 합성에서 최고 수준의 평균 평가 점수(MOS) 4.22를 달성한다.

ABSTRACT

We propose Universal MelGAN, a vocoder that synthesizes high-fidelity speech in multiple domains. To preserve sound quality when the MelGAN-based structure is trained with a dataset of hundreds of speakers, we added multi-resolution spectrogram discriminators to sharpen the spectral resolution of the generated waveforms. This enables the model to generate realistic waveforms of multi-speakers, by alleviating the over-smoothing problem in the high frequency band of the large footprint model. Our structure generates signals close to ground-truth data without reducing the inference speed, by discriminating the waveform and spectrogram during training. The model achieved the best mean opinion score (MOS) in most scenarios using ground-truth mel-spectrogram as an input. Especially, it showed superior performance in unseen domains with regard of speaker, emotion, and language. Moreover, in a multi-speaker text-to-speech scenario using mel-spectrogram generated by a transformer model, it synthesized high-fidelity speech of 4.22 MOS. These results, achieved without external domain information, highlight the potential of the proposed model as a universal vocoder.

연구 동기 및 목표

멀티스피커 데이터로 훈련할 때 대형 프로파일 멜간 모델의 고주파수 대역에서의 과도한 매끄러움 문제를 해결하기 위해.
추론 속도를 희생시키지 않고 웨이브폼의 정밀도와 스펙트럼 해상도를 향상시키기 위해.
새로운 화자, 감정, 언어를 포함한 다양한 도메인에서 고품질 음성을 생성할 수 있는 유니버설 음성합성기를 개발하기 위해.
외부 도메인 정보 없이도 본래의 도메인과 새로운 도메인 모두에서 뛰어난 성능을 달성하기 위해.
경량이고 확장 가능한 아키텍처를 사용하여 실시간 고음질 텍스트-to-음성 합성 구현을 가능하게 하기 위해.

제안 방법

다양한 STFT 스케일에서 작동하는 멀티스케일 스펙트로그램 디스crim인레이터를 도입하여 고주파수 대역에서의 스펙트럼 세부 정보를 향상시키고 과도한 매끄러움을 감소시킨다.
원래 멜간 아키텍처를 멀티스케일 디스crim인레이터로 강화하여, 적대적 훈련 중에 웨이브폼과 스펙트로그램을 동시에 구분하도록 한다.
다양한 STFT 파rameter 세트에서 스펙트럼 수렴 및 로그 크기 손실을 조합한 보조 훈련 목표로 멀티스케일 STFT 손실을 사용한다.
전치 컨벌루션과 잔여 블록을 기반으로 한 생성자로, 더 나은 시간적 모델링을 위해 수신장 확장을 적용한다.
적대적 손실, 멀티스케일 STFT 손실, 청각적 손실을 함께 사용하여 종단 간 훈련을 수행함으로써 세밀한 스펙트럼 세부 정보를 유지한다.
멀티스피커 텍스트-to-음성 평가를 위해 트랜스포머 기반 음성 모델(JDI-T)이 예측한 멜스펙트로그램으로 음성합성기를 미세조정한다.

실험 결과

연구 질문

RQ1외부 도메인 정보 없이도 멜간 기반 음성합성기가 새로운 화자, 감정, 언어에 일반화될 수 있는가?
RQ2멀티스케일 스펙트로그램 디스crim인레이터의 추가로 고주파수 대역에서의 스펙트럼 해상도 향상과 과도한 매끄러움 감소에 어떤 기여를 하는가?
RQ3제안된 모델의 성능은 본래 도메인과 새로운 도메인 시나리오 모두에서 MOS 및 추론 속도 측면에서 어떻게 평가되는가?
RQ4멀티스피커 텍스트-to-음성 작업에서 WaveGlow, WaveRNN, FB-MelGAN과 같은 최신 기술과 비교해 볼 때 성능은 어떠한가?
RQ5다양하고 멀티스피커 데이터셋으로 훈련하면서도 고음질과 실시간 추론 속도를 유지할 수 있는가?

주요 결과

Universal MelGAN은 멀티스피커 텍스트-to-음성에서 MOS 4.22를 달성하여 WaveGlow(3.36), WaveRNN(3.06), FB-MelGAN(3.43)을 크게 앞서며 뛰어난 성능을 보였다.
새로운 도메인 시나리오에서, 새로운 화자에 대해 MOS 4.15, 감정에 대해 3.91, 새로운 언어에 대해 3.67를 기록하여 모든 지표에서 실제 녹음과 가장 유사한 결과를 보였다.
본래 도메인과 새로운 도메인 간 성능 격차가 가장 작았으며(예: 한국어 4.19 vs. 4.05, 영어 3.81 vs. 3.71) 강력한 내성적 안정성을 보였다.
NVIDIA V100 GPU에서 실시간 요소(RTF) 0.028를 달성하여 하드웨어 최적화나 품질 저하를 초래하는 가속 기법 없이도 효율적인 추론을 보였다.
멀티스케일 스펙트로그램 디스crim인레이터가 대형 프로파일 모델에서 고주파 성분의 과도한 매끄러움을 효과적으로 감소시켜 스펙트럼 정밀도를 향상시켰다.
모든 기준 모델 대비 본래 도메인과 새로운 도메인 평가에서 모두 뛰어난 성능을 보였으며, 외부 도메인 임베딩이 필요 없이도 유니버설 음성합성기로서의 잠재력을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.