QUICK REVIEW

[논문 리뷰] DiffWave: A Versatile Diffusion Model for Audio Synthesis

Zhifeng Kong, Wei Ping|arXiv (Cornell University)|2020. 09. 21.

Music and Audio Processing참고 문헌 51인용 수 121

한 줄 요약

DiffWave는 비자기회귀 확산 모델로 원시 오디오를 합성하여 WaveNet 보코더 품질과 비교되며 합성 속도가 훨씬 빠르고 무조건 및 클래스-조건 생성에서 탁월합니다.

ABSTRACT

In this work, we propose DiffWave, a versatile diffusion probabilistic model for conditional and unconditional waveform generation. The model is non-autoregressive, and converts the white noise signal into structured waveform through a Markov chain with a constant number of steps at synthesis. It is efficiently trained by optimizing a variant of variational bound on the data likelihood. DiffWave produces high-fidelity audios in different waveform generation tasks, including neural vocoding conditioned on mel spectrogram, class-conditional generation, and unconditional generation. We demonstrate that DiffWave matches a strong WaveNet vocoder in terms of speech quality (MOS: 4.44 versus 4.43), while synthesizing orders of magnitude faster. In particular, it significantly outperforms autoregressive and GAN-based waveform models in the challenging unconditional generation task in terms of audio quality and sample diversity from various automatic and human evaluations.

연구 동기 및 목표

고충실도 원시 오디오 합성을 비자기회귀 확산 모델로 진전시킨다.
조건부(멜스펙트로그램과 전역 레이블) 및 무조건 파형 생성을 모두 가능하게 한다.
ELBO 기반 목표를 사용하여 작은 규모와 효율적인 학습으로 경쟁력 있는 음질을 달성한다.

제안 방법

화이트 노이즈에서 음향으로의 매핑을 마르코프 역과정을 통해 수행하기 위해 확산 확률 프레임워크를 사용한다.
ϵθ 디노이저와 고정 σθ를 갖는 Ho et al.의 매개변수화로 폐쇄형 ELBO 학습을 채택한다.
WaveNet을 모티프로 하지만 비자기회귀인 Bi-DilConv 아키텍처의 피드포워드 양방향 확장 컨볼루션으로 DiffWave를 구현한다.
diffusion-step 임베딩을 도입하여 현재 확산 단계에 ϵθ를 조건화한다.
로컬(멜 스펙트로그램) 및 글로벌(스피커/단어) 컨디셔닝을 지원하고, 확산 단계 전반에 걸친 큰 수용 필드를 활용하여 무조건 생성을 가능하게 한다.
역 과정을 Tinfer 단계로 축소하고 설계된 분산 일정으로 빠른 샘플링을 제공한다.

실험 결과

연구 질문

RQ1DiffWave가 멜 스펙트로그램에 조건된 상태에서 자기회귀 보코더에 비해 합성이 훨씬 빠르게 가능하면서 고충실도 음성 합성을 달성할 수 있는가?
RQ2무조건 파형 생성에서 DiffWave의 음질과 샘플 다양성은 자기회귀 및 GAN 기반 모델과 비교해 어떠한가?
RQ3클래스-조건 파형 생성에서 DiffWave가 기저 자기회귀 모델에 비해 경쟁적이거나 우수한 결과를 보여주는가?
RQ4다양한 확산 단계 수 및 모델 크기에 따른 모델 풋프린트, 속도, 품질의 트레이드오프는 무엇인가?

주요 결과

FID(↓)	IS(↑)	mIS(↑)	AM(↓)	NDB/K(↓)	MOS(↑)
3.279	2.54	7.6	1.368	0.86	1.34 ± 0.29
2.947	2.84	10.0	1.260	0.86	1.43 ± 0.30
1.349	4.53	36.6	0.796	0.78	2.03 ± 0.33
1.287	5.30	59.4	0.636	0.74	3.39 ± 0.32
0.000	8.48	281.4	0.164	0.00	—
0.011	8.47	275.2	0.166	0.10	3.72 ± 0.28

DiffWave는 WaveNet 보코더 품질과 일치한다 (MOS: 4.44 vs. 4.43)하며 합성 속도는 수배의 차로 더 빠르다.
작은 DiffWave 모델(2.64M 매개변수)이 22.05 kHz 음성에서 MOS 4.37를 달성하고 V100에서 엔지니어링된 커널 없이도 실시간보다 5배 이상 빠르게 실행된다.
무조건 생성에서 DiffWave는 여러 자동 및 인간 평가에서 오디오 품질 및 샘플 다양성 측면에서 WaveNet과 WaveGAN을 능가한다.
무조건 생성에서, DiffWave는 MOS 3.39를 달성하여 WaveNet(MOS 1.43)과 WaveGAN(MOS 2.03)을 능가한다.
클래스-조건 생성에서 DiffWave는 MOS 3.50(대 WaveNet 1.58)으로 달성하고, 심층 버전은 MOS 3.44에 도달한다.
DiffWave는 많은 플로우 기반 보코더보다 작은 풋프린트를 유지하면서도 강력한 무조건 및 조건부 생성을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.