[논문 리뷰] HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis
HiFi-GAN은 GAN 기반 보코더로 다중-주기 및 다중-스케일 구분자와 다중 수용 필드 생성기를 도입하여 고충실도 음성을 효율적으로 전달하고, MOS와 속도에서 autoregressive 및 flow-based 모델을 능가합니다.
Several recent work on speech synthesis have employed generative adversarial networks (GANs) to produce raw waveforms. Although such methods improve the sampling efficiency and memory usage, their sample quality has not yet reached that of autoregressive and flow-based generative models. In this work, we propose HiFi-GAN, which achieves both efficient and high-fidelity speech synthesis. As speech audio consists of sinusoidal signals with various periods, we demonstrate that modeling periodic patterns of an audio is crucial for enhancing sample quality. A subjective human evaluation (mean opinion score, MOS) of a single speaker dataset indicates that our proposed method demonstrates similarity to human quality while generating 22.05 kHz high-fidelity audio 167.9 times faster than real-time on a single V100 GPU. We further show the generality of HiFi-GAN to the mel-spectrogram inversion of unseen speakers and end-to-end speech synthesis. Finally, a small footprint version of HiFi-GAN generates samples 13.4 times faster than real-time on CPU with comparable quality to an autoregressive counterpart.
연구 동기 및 목표
- 합성 속도와 음성 품질의 균형을 맞추는 신경 보코더를 고무한다.
- 오디오에서 주기적 패턴을 포착하는 생성기-판별기 아키텍처를 개발한다.
- 보조 손실 및 다중 판별기 설계를 통해 학습 안정성과 지각 품질을 향상시킨다.
- 보지 않은 화자 및 엔드-투-엔드 음성합성 파이프라인에 대한 일반화 가능성을 보여준다.
제안 방법
- 생성기 하나와 두 판별기(다중 스케일 및 다중 주기)를 갖는 HiFi-GAN을 제안한다.
- 다양한 길이의 패턴을 포착하기 위해 생성기에 다중 수용 필드 융합(MRF)을 도입한다.
- 주기 [2,3,5,7,11]를 갖는 다중 주기 판별기(MPD)를 사용하여 주기적 구성요소를 모델링한다.
- 다중 시간 스케일에서 오디오를 평가하기 위해 다중 스케일 판별기(MSD)를 사용한다.
- 적대적 손실(LSGAN), 멜-스펙트로그램 손실(L1), 특징 매칭 손실(LFM)의 조합으로 학습한다.
- 품질과 효율의 균형을 맞추기 위해 세 가지 생성기 구성(V1, V2, V3)을 제공한다.
실험 결과
연구 질문
- RQ1GAN 기반 보코더가 자동회귀 및 흐름 기반 모델과 비슷한 높은 지각 품질을 달성할 수 있는가?
- RQ2MPD를 통해 주기적 패턴을 명시적으로 모델링하는 것이 음성 합성 품질을 향상시키는가?
- RQ3다중 스케일 및 다중 주기 판별기가 학습 안정성과 샘플 충실도에 어떤 영향을 미치는가?
- RQ4HiFi-GAN이 보지 않은 화자 및 엔드-투-엔드 TTS 파이프라인에 일반화될 수 있는가?
주요 결과
- HiFi-GAN 변형이 LJSpeech에서 WaveNet (MoL), WaveGlow, MelGAN보다 MOS에서 우수하다.
- V1은 매개변수 13.92M로 MOS 4.36 (CI 0.07)를 달성하고 3.7 MHz 합성에서 GPU 속도는 실시간에 가까운 (×167.86).
- V2는 매개변수 0.92M로 MOS 4.23 (CI 0.07)를 달성하고 GPU에서 상당한 속도 향상 (×764.80).
- V3는 가장 작고 CPU에서 눈에 띄는 실시간성: ×13.44; GPU: ×1186.80로 MOS 4.05 (CI 0.08)로(on-device 사용에 적합).
- 제거 실험은 MPD가 중요함을 보여주고(MPD 없음 MOS가 2.28로 떨어짐), MSD가 품질에 기여하며 멜 스펙트로그램 손실이 학습을 안정시킴.
- Tacotron2와의 엔드투엔드 미세 조정은 HiFi-GAN 변형의 엔드-투-엔드 MOS를 향상시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.