QUICK REVIEW

[논문 리뷰] FloWaveNet : A Generative Flow for Raw Audio

Sungwon Kim, Sang-gil Lee|arXiv (Cornell University)|2018. 11. 06.

Music and Audio Processing참고 문헌 17인용 수 30

한 줄 요약

FloWaveNet는 최대 우도 손실만을 사용하는 단일 단계 훈련 절차를 통해 교사 네트워크나 보조 손실 항목이 필요 없이 실시간, 병렬 웨이브포맷 생성을 가능하게 하는 웨이브폼 기반 생성 모델이다. 이는 Parallel WaveNet과 ClariNet과 유사한 수준의 음성 품질을 달성하면서도 훈련을 단순화하고 안정성을 향상시킨다.

ABSTRACT

Most modern text-to-speech architectures use a WaveNet vocoder for synthesizing high-fidelity waveform audio, but there have been limitations, such as high inference time, in its practical application due to its ancestral sampling scheme. The recently suggested Parallel WaveNet and ClariNet have achieved real-time audio synthesis capability by incorporating inverse autoregressive flow for parallel sampling. However, these approaches require a two-stage training pipeline with a well-trained teacher network and can only produce natural sound by using probability distillation along with auxiliary loss terms. We propose FloWaveNet, a flow-based generative model for raw audio synthesis. FloWaveNet requires only a single-stage training procedure and a single maximum likelihood loss, without any additional auxiliary terms, and it is inherently parallel due to the characteristics of generative flow. The model can efficiently sample raw audio in real-time, with clarity comparable to previous two-stage parallel models. The code and samples for all models, including our FloWaveNet, are publicly available.

연구 동기 및 목표

자기회귀적 WaveNet의 실시간 음성 합성에서 높은 추론 시간과 복잡한 훈련 파이프라인 문제를 해결하기 위해.
Parallel WaveNet과 ClariNet과 같은 이중 단계 병렬 모델의 한계를 극복하기 위해, 현실적인 음성을 생성하기 위해 사전 훈련된 교사 네트워크와 보조 손실 항목이 필요로 하는 문제를 해결하기 위해.
단일 최대 우도 목표 함수를 사용하여 병렬적이고 종단 간 훈련이 가능한 플로 기반 생성 모델을 개발하기 위해.
최신 이중 단계 모델과 비교해도 높은 음성 품질을 달성하면서도 훈련을 단순화하고 안정성을 향상시키기 위해.

제안 방법

FloWaveNet은 원시 음성 웨이브폼의 확률 분포를 모델링하기 위해 정규화 유량을 활용하여, 시퀀스 길이에 관계없이 병렬 샘플링을 가능하게 한다.
훈련 중에 유일한 최대 우도 손실을 사용하여 확률 정련이나 보조 손실이 필요 없도록 한다.
정확한 우도 계산과 효율적인 샘플링을 보장하기 위해 역전이 가능한 커파링 레이어와 커파링 플로를 활용한다.
인과적 확장 컨벌루션을 비인과적 컨벌루션으로 대체하여 멜스펙트로그램 조건에서 이중 방향 컨텍스트 모델링을 가능하게 한다.
모델은 단일 단계에서 종단 간 훈련되며, 사전 훈련된 교사 네트워크가 필요 없도록 한다.
모델은 텍스트-to-스피치 시스템에서 WaveNet 보코더의 즉각적인 대체로 설계되어 있다.

실험 결과

연구 질문

RQ1플로 기반 생성 모델이 이중 단계 훈련 파이프라인이나 보조 손실 항목 없이 실시간 고음질 원시 음성 합성을 달성할 수 있는가?
RQ2최대 우도 손실만으로 훈련된 단일 단계 플로 기반 모델의 성능은 Parallel WaveNet과 ClariNet과 같은 이중 단계 병렬 모델과 비교해 음성 품질과 훈련 안정성 측면에서 어떻게 다른가?
RQ3컨벌루션 레이어에서의 인과성은 플로 기반 음성 합성에서 최종 음성 품질에 어떤 영향을 미치는가?
RQ4최대 우도 손실만으로 훈련된 플로 기반 모델이 이중 단계 모델과 비교해 유사한 청각 품질을 달성할 수 있는가?
RQ5이중 단계 모델에서 KL 발산과 스펙트로그램 프레임 손실 등의 다양한 손실 구성 요소는 음성 품질에 어떤 역할을 하는가? 그리고 왜 이들이 필수적인가?

주요 결과

비인과적 모드에서 FloWaveNet은 평균 평가 점수(MOS) 3.95 ± 0.154를 기록하여 인과적 변종(3.36 ± 0.134)보다 유의미하게 높은 성능을 보이며 이중 방향 컨텍스트의 이점이 입증되었다.
비인과적 FloWaveNet 버전은 멜스펙트로그램 조건에서 전방 및 후방 컨텍스트를 모두 활용하여 더 높은 품질의 음성을 생성한다.
단지 KL 발산 손실만으로 훈련할 경우, 조건부로 KL 발산이 최소화되더라도 모드 붕괴와 낮은 에너지, 왜곡된 음성이 발생한다.
스펙트로그램 프레임 손실만으로 훈련된 가우시안 IAF 모델은 노이즈가 많고 불안정한 샘플을 생성하며, 훈련이 진행되면서도 개선되지 않아 두 손실 항목을 병합하는 것이 필수적임을 시사한다.
이중 단계 모델에서 KL 발산과 프레임 손실의 조합은 현실적인 음성을 생성하기 위해 필수적이며, 이 중 하나만으로는 고해상도 출력을 얻을 수 없다.
제안된 개방 소스 구현된 가우시안 IAF는 기존의 공개 구현보다 뛰어난 성능을 보이며, 훈련 설정의 효과성을 검증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.