[논문 리뷰] WaveFlow: A Compact Flow-based Model for Raw Audio
WaveFlow는 최대 우도 학습으로 훈련된 원시 오디오용 컴팩트한 플로우 기반 모델을 제시하며, WaveNet과 같은 고충실도 음성을 달성하지만 생성 속도는 훨씬 빠르고 footprint가 훨씬 작다.
In this work, we propose WaveFlow, a small-footprint generative flow for raw audio, which is directly trained with maximum likelihood. It handles the long-range structure of 1-D waveform with a dilated 2-D convolutional architecture, while modeling the local variations using expressive autoregressive functions. WaveFlow provides a unified view of likelihood-based models for 1-D data, including WaveNet and WaveGlow as special cases. It generates high-fidelity speech as WaveNet, while synthesizing several orders of magnitude faster as it only requires a few sequential steps to generate very long waveforms with hundreds of thousands of time-steps. Furthermore, it can significantly reduce the likelihood gap that has existed between autoregressive models and flow-based models for efficient synthesis. Finally, our small-footprint WaveFlow has only 5.91M parameters, which is 15$ imes$ smaller than WaveGlow. It can generate 22.05 kHz high-fidelity audio 42.6$ imes$ faster than real-time (at a rate of 939.3 kHz) on a V100 GPU without engineered inference kernels.
연구 동기 및 목표
- 컴팩트한 플로우 기반 모델을 통해 효율적이고 고충실도의 원시 오디오 생성의 필요성을 제시한다.
- 1-D 파형 데이터에 대한 가능도 기반 플로우 모델과 자기회귀 모델을 연결한다.
- 작은 footprint의 WaveFlow가 자기회귀 성능에 필적하면서도 합성 속도를 크게 향상시킬 수 있음을 시연한다.
- WaveFlow가 WaveGlow에 비해 매개변수 수를 줄이면서도 충실도를 유지하거나 향상시키는 것을 보인다.
제안 방법
- 1-D 파형을 2-D 행렬로 압축하고 표현력 있는 자기회귀 함수로 국부 변이를 모델링하는 WaveFlow를 도입한다.
- 플로우 기반 매핑에서 조건부 시프트와 스케일을 구현하기 위해 확장된 2-D 합성곱 아키텍처를 사용한다.
- 높이 차원 전체에서 병렬 가능도 계산과 자기회귀 합성을 가능하게 하는 삼각 요인(Jacobian)을 정의한다.
- 보조 손실이나 밀도 증류 없이 최대 우도로 직접 학습한다.
- WaveNet과 WaveGlow를 플로우 기반 모델의 특수한 경우로 보는 통합된 관점을 제공한다.
- 모델 용량과 추론 병렬성을 균형 있게 하기 위해 다양한 높이 h와 순열 전략을 실험한다.
실험 결과
연구 질문
- RQ1컴팩트한 2-D 확장 합성곱 플로우 모델이 원시 오디오에 대해 자기회귀 WaveNet에 근접한 가능도를 달성할 수 있는가?
- RQ2생성 속도와 모델 용량 사이의 균형을 맞추기 위해 WaveFlow가 높이 매개변수 h를 어떻게 확장하는가?
- RQ3여러 개의 Flow 층을 쌓을 때 가능도와 충실도에 대한 순열 전략의 영향은 무엇인가?
- RQ4매개변수 수, 가능도, 합성 속도 측면에서 WaveGlow 및 자기회귀 Flow와 비교하면 WaveFlow는 어떠한가?
- RQ5Flow 기반 보코더에서 가능도와 지각적 음성 품질 간의 상관관계는 어느 정도인가?
주요 결과
| 모델 | flow × 층 | Res. 채널 | # 매개변수 | 테스트 가능도 |
|---|---|---|---|---|
| Gaussian WaveNet | 1 × 30 = 30 | 128 | 4.57 M | 5.059 |
| Autoregressive flow | 3 × 10 = 30 | 128 | 4.54 M | 5.161 |
| WaveGlow | 12 × 8 = 96 | 64 | 17.59 M | 4.804 |
| WaveGlow | 12 × 8 = 96 | 128 | 34.83 M | 4.927 |
| WaveGlow | 6 × 8 = 48 | 256 | 47.22 M | 4.922 |
| WaveGlow | 12 × 8 = 96 | 256 | 87.88 M | 5.018 |
| WaveGlow | 12 × 8 = 96 | 512 | 268.29 M | 5.026 |
| WaveFlow (h=8) | 8 × 8 = 64 | 64 | 5.91 M | 4.935 |
| WaveFlow (h=16) | 8 × 8 = 64 | 64 | 5.91 M | 4.954 |
| WaveFlow (h=32) | 8 × 8 = 64 | 64 | 5.91 M | 5.002 |
| WaveFlow (h=64) | 8 × 8 = 64 | 64 | 5.91 M | 5.023 |
| WaveFlow (h=8) | 6 × 8 = 48 | 96 | 9.58 M | 4.946 |
| WaveFlow (h=8) | 8 × 8 = 64 | 96 | 12.78 M | 4.977 |
| WaveFlow (h=16) | 8 × 8 = 64 | 96 | 12.78 M | 5.007 |
| WaveFlow (h=16) | 6 × 8 = 48 | 128 | 16.69 M | 4.990 |
| WaveFlow (h=8) | 8 × 8 = 64 | 128 | 22.25 M | 5.009 |
| WaveFlow (h=16) | 8 × 8 = 64 | 128 | 22.25 M | 5.028 |
| WaveFlow (h=32) | 8 × 8 = 64 | 128 | 22.25 M | 5.055 |
| WaveFlow (h=16) | 6 × 8 = 48 | 256 | 64.64 M | 5.064 |
| WaveFlow (h=16) | 8 × 8 = 64 | 256 | 86.18 M | 5.101 |
- 적당한 크기의 WaveFlow가 가능도에서 WaveNet과 일치하고 수천 개의 타임스텝을 몇 차례의 연속 생성으로 고충실도 음성을 산출한다.
- 비슷한 매개변수 규모에서 WaveFlow는 가능도에서 WaveGlow를 크게 능가한다(예: 유사 규모에서 5.023 대 5.026).
- 압축된 높이 h를 높일수록 가능도가 향상되며, 더 많은 플로우를 가진 더 큰 모델은 LL과 MOS가 더 좋아지지만 어느 정도까지는 더 빠른 합성을 가능하게 한다.
- 작은 footprint의 WaveFlow(5.91M 매개변수)는 22.05 kHz 음성을 42.60× 실시간 속도로 합성할 수 있으며, 여러 설정에서 WaveGlow보다 효율성과 충실도 모두에서 우수하다.
- 높이 차원에 걸친 순열 전략(특히 혼합 역방향 및 이분 배열)은 양방향 모델링으로 가능도를 상당히 향상시킨다.
- 텍스트-음성 합성 실험은 WaveFlow가 작은 footprint를 유지하고 빠른 합성을 달성하면서 WaveNet에 비견되는 MOS를 얻는다는 것을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.