[논문 리뷰] BigVGAN: A Universal Neural Vocoder with Large-Scale Training
BigVGAN은 주기적 활성화와 반샘플링 표현을 갖춘 대규모 GAN 기반 신경자복기를 학습시켜 보지 않은 화자, 언어 및 녹음 환경에서의 제로샷 성능을 강하게 달성하고, 112M 매개변수까지 확장되며 미세조정 없이도 최첨단 성능을 나타냅니다.
Despite recent progress in generative adversarial network (GAN)-based vocoders, where the model generates raw waveform conditioned on acoustic features, it is challenging to synthesize high-fidelity audio for numerous speakers across various recording environments. In this work, we present BigVGAN, a universal vocoder that generalizes well for various out-of-distribution scenarios without fine-tuning. We introduce periodic activation function and anti-aliased representation into the GAN generator, which brings the desired inductive bias for audio synthesis and significantly improves audio quality. In addition, we train our GAN vocoder at the largest scale up to 112M parameters, which is unprecedented in the literature. We identify and address the failure modes in large-scale GAN training for audio, while maintaining high-fidelity output without over-regularization. Our BigVGAN, trained only on clean speech (LibriTTS), achieves the state-of-the-art performance for various zero-shot (out-of-distribution) conditions, including unseen speakers, languages, recording environments, singing voices, music, and instrumental audio. We release our code and model at: https://github.com/NVIDIA/BigVGAN
연구 동기 및 목표
- Fine-tuning 없이 분포 밖(out-of-distribution, OOD) 오디오에 일반화할 수 있는 보편 신경 자복기 개발.
- 파형 합성 품질을 개선하는 구조적 귀납 바이어스 조사(주기적 활성화 및 반샘플링).
- 안정성을 유지하면서 GAN 복성기 학습을 전례 없는 규모로 확장(최대 112M 매개변수).
- 보이지 않는 화자, 언어, 녹음 조건을 포함한 다양한 분포 내/외 시나리오 평가.
- 대규모 GAN 자복기 운용에 대한 실용적 통찰 및 분해 실험 제공으로 실세계 응용 가이드 제시
제안 방법
- 제너레이터에 주기적 귀납 바이어스를 주입하기 위한 주기적 활성화(Snake 함수) 도입.
- 다중 잔차블록을 학습 가능한 주기를 결합하고 고주파 인공물을 감소시키는 저역 통과 필터링을 적용하는 반샘플링 다중 주기성 구성(AMP) 개발.
- 대규모 GAN 학습 실패 모드를 다루며 제너레이터를 112M 매개변수(BigVGAN)로 확장(학습률 조정, 더 큰 배치 크기, 그래디언트 클리핑).
- autoregressive 혹은 흐름 기반의 양자역학적 사전결합을 제약하지 않으면서 스펙트럴 구조를 개선하기 위한 HiFi-GAN MRD 디스크리미네이터를 MRD(다중 해상도 도메인)로 대체.
- 전체 LibriTTS 데이터셋(train-full)으로 학습하여 넓은 화자/환경 다양성 확보 및 보이지 않는 데이터에 대한 제로샷 성능 평가.
- 다양한 외재분포(out-of-distribution) 작업에서 객체적 지표(M-STFT, PESQ, MCD, Periodicity, V/UV F1) 및 주관적 SMOS/MOS 평가를 통한 강건성 검증
실험 결과
연구 질문
- RQ1대규모 GAN 자복기가 다양한 깨끗한 음성으로 학습되었을 때 미세조정 없이 보이지 않는 화자, 언어, 녹음 환경에 일반화할 수 있는가?
- RQ2주기적 활성화 및 반샘플링이 보편 자복기에서 파형 생성 품질을 개선하는 구조적 귀납 바이어스인가?
- RQ3112M 매개변수로 GAN 자복기를 확장하는 것이 분포 밖 조건에서 품질과 강건성에 어떤 영향을 미치는가?
- RQ4대규모 GAN 자복기 안정화를 위해 필요한 학습 전략은 무엇이며 초기 붕괴를 방지할 수 있는가?
주요 결과
| Model | M-STFT(↓) | PESQ(↑) | MCD(↓) | Periodicity(↓) | V/UV F1(↑) | MOS(↑) | SMOS(↑) |
|---|---|---|---|---|---|---|---|
| Ground Truth | - | - | - | - | - | 4.40 B1 0.06 | 4.44 B1 0.06 |
| SC-WaveRNN | 2.2358 | 1.701 | 1.8854 | 0.3044 | 0.8144 | 3.20 B1 0.11 | 3.29 B1 0.10 |
| WaveGlow-256 | 1.3099 | 3.138 | 2.3591 | 0.1485 | 0.9378 | 3.84 B1 0.10 | 3.87 B1 0.10 |
| WaveFlow-128 | 1.1120 | 3.027 | 1.2455 | 0.1416 | 0.9410 | 3.85 B1 0.10 | 3.89 B1 0.10 |
| HiFi-GAN (V1) | 1.0017 | 2.947 | 0.6603 | 0.1565 | 0.9300 | 4.08 B1 0.09 | 4.15 B1 0.09 |
| BigVGAN-base | 0.8788 | 3.519 | 0.4564 | 0.1287 | 0.9459 | 4.10 B1 0.09 | 4.20 B1 0.08 |
| BigVGAN | 0.7997 | 4.027 | 0.3745 | 0.1018 | 0.9598 | 4.11 B1 0.09 | 4.26 B1 0.08 |
- BigVGAN-base가 동일한 매개변수 예산에서 객관적 지표에서 HiFi-GAN(V1)보다 우수한 것으로 나타나 파형 데이터에 대한 더 나은 주기적 귀납 바이어스를 시사한다.
- BigVGAN(112M)는 보이지 않는 언어, 화자, 녹음 환경, 노래 목소리, 음악 및 기악 음향에서 제로샷 성능이 최상으로 나타나며 OOD 작업에서 SMOS에서 베이스라인보다 현저히 우수.
- 대규모 학습을 통해 BigVGAN은 보이스나 악기 텍스처를 포함한 분포 밖 신호에 대한 강력한 추론 능력과 강건성을 보인다.
- 대규모 GAN 자복기의 실용적 학습 레시피를 제공하며 학습률 조정, 더 큰 배치 크기, 초기 학습 붕괴를 피하기 위한 그래디언트 클리핑을 포함한다.
- LibriTTS 및 MUSDB18-HQ 평가에서 BigVGAN은 경쟁 모델 대비 MOS/SMOS 점수 우수 및 스펙트럴 왜곡 감소를 보이며 특히 OOD 시나리오에서 우수한 성능을 보인다.
- 훈련 데이터 다양성은 매우 중요하며, 다양한 데이터셋(train-full)으로 학습된 모델이 더 깨끗한 부분집합(train-clean-360 또는 VCTK)으로 학습된 모델보다 우수하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.