[논문 리뷰] DiffWave: A Versatile Diffusion Model for Audio Synthesis
DiffWave는 비자기회귀 확산 모델로 원시 오디오를 합성하여 WaveNet 보코더 품질과 비교되며 합성 속도가 훨씬 빠르고 무조건 및 클래스-조건 생성에서 탁월합니다.
In this work, we propose DiffWave, a versatile diffusion probabilistic model for conditional and unconditional waveform generation. The model is non-autoregressive, and converts the white noise signal into structured waveform through a Markov chain with a constant number of steps at synthesis. It is efficiently trained by optimizing a variant of variational bound on the data likelihood. DiffWave produces high-fidelity audios in different waveform generation tasks, including neural vocoding conditioned on mel spectrogram, class-conditional generation, and unconditional generation. We demonstrate that DiffWave matches a strong WaveNet vocoder in terms of speech quality (MOS: 4.44 versus 4.43), while synthesizing orders of magnitude faster. In particular, it significantly outperforms autoregressive and GAN-based waveform models in the challenging unconditional generation task in terms of audio quality and sample diversity from various automatic and human evaluations.
연구 동기 및 목표
- 고충실도 원시 오디오 합성을 비자기회귀 확산 모델로 진전시킨다.
- 조건부(멜스펙트로그램과 전역 레이블) 및 무조건 파형 생성을 모두 가능하게 한다.
- ELBO 기반 목표를 사용하여 작은 규모와 효율적인 학습으로 경쟁력 있는 음질을 달성한다.
제안 방법
- 화이트 노이즈에서 음향으로의 매핑을 마르코프 역과정을 통해 수행하기 위해 확산 확률 프레임워크를 사용한다.
- ϵθ 디노이저와 고정 σθ를 갖는 Ho et al.의 매개변수화로 폐쇄형 ELBO 학습을 채택한다.
- WaveNet을 모티프로 하지만 비자기회귀인 Bi-DilConv 아키텍처의 피드포워드 양방향 확장 컨볼루션으로 DiffWave를 구현한다.
- diffusion-step 임베딩을 도입하여 현재 확산 단계에 ϵθ를 조건화한다.
- 로컬(멜 스펙트로그램) 및 글로벌(스피커/단어) 컨디셔닝을 지원하고, 확산 단계 전반에 걸친 큰 수용 필드를 활용하여 무조건 생성을 가능하게 한다.
- 역 과정을 Tinfer 단계로 축소하고 설계된 분산 일정으로 빠른 샘플링을 제공한다.
실험 결과
연구 질문
- RQ1DiffWave가 멜 스펙트로그램에 조건된 상태에서 자기회귀 보코더에 비해 합성이 훨씬 빠르게 가능하면서 고충실도 음성 합성을 달성할 수 있는가?
- RQ2무조건 파형 생성에서 DiffWave의 음질과 샘플 다양성은 자기회귀 및 GAN 기반 모델과 비교해 어떠한가?
- RQ3클래스-조건 파형 생성에서 DiffWave가 기저 자기회귀 모델에 비해 경쟁적이거나 우수한 결과를 보여주는가?
- RQ4다양한 확산 단계 수 및 모델 크기에 따른 모델 풋프린트, 속도, 품질의 트레이드오프는 무엇인가?
주요 결과
| FID(↓) | IS(↑) | mIS(↑) | AM(↓) | NDB/K(↓) | MOS(↑) |
|---|---|---|---|---|---|
| 3.279 | 2.54 | 7.6 | 1.368 | 0.86 | 1.34 ± 0.29 |
| 2.947 | 2.84 | 10.0 | 1.260 | 0.86 | 1.43 ± 0.30 |
| 1.349 | 4.53 | 36.6 | 0.796 | 0.78 | 2.03 ± 0.33 |
| 1.287 | 5.30 | 59.4 | 0.636 | 0.74 | 3.39 ± 0.32 |
| 0.000 | 8.48 | 281.4 | 0.164 | 0.00 | — |
| 0.011 | 8.47 | 275.2 | 0.166 | 0.10 | 3.72 ± 0.28 |
- DiffWave는 WaveNet 보코더 품질과 일치한다 (MOS: 4.44 vs. 4.43)하며 합성 속도는 수배의 차로 더 빠르다.
- 작은 DiffWave 모델(2.64M 매개변수)이 22.05 kHz 음성에서 MOS 4.37를 달성하고 V100에서 엔지니어링된 커널 없이도 실시간보다 5배 이상 빠르게 실행된다.
- 무조건 생성에서 DiffWave는 여러 자동 및 인간 평가에서 오디오 품질 및 샘플 다양성 측면에서 WaveNet과 WaveGAN을 능가한다.
- 무조건 생성에서, DiffWave는 MOS 3.39를 달성하여 WaveNet(MOS 1.43)과 WaveGAN(MOS 2.03)을 능가한다.
- 클래스-조건 생성에서 DiffWave는 MOS 3.50(대 WaveNet 1.58)으로 달성하고, 심층 버전은 MOS 3.44에 도달한다.
- DiffWave는 많은 플로우 기반 보코더보다 작은 풋프린트를 유지하면서도 강력한 무조건 및 조건부 생성을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.