QUICK REVIEW

[논문 리뷰] FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech Synthesis

Rongjie Huang, Max W. Y. Lam|arXiv (Cornell University)|2022. 04. 21.

Speech Recognition and Synthesis인용 수 28

한 줄 요약

FastDiff는 시간 의식 위치 가변 컨볼루션과 노이즈 스케줄 예측기를 갖춘 빠른 조건부 확산 모델을 도입하여 단 4개의 확산 단계로도 고품질 음성을 달성하고 실시간 또는 실시간보다 빠른 TTS를 가능하게 합니다. 또한 종단 간 파형 합성을 위한 FastDiff-TTS를 제시합니다.

ABSTRACT

Denoising diffusion probabilistic models (DDPMs) have recently achieved leading performances in many generative tasks. However, the inherited iterative sampling process costs hindered their applications to speech synthesis. This paper proposes FastDiff, a fast conditional diffusion model for high-quality speech synthesis. FastDiff employs a stack of time-aware location-variable convolutions of diverse receptive field patterns to efficiently model long-term time dependencies with adaptive conditions. A noise schedule predictor is also adopted to reduce the sampling steps without sacrificing the generation quality. Based on FastDiff, we design an end-to-end text-to-speech synthesizer, FastDiff-TTS, which generates high-fidelity speech waveforms without any intermediate feature (e.g., Mel-spectrogram). Our evaluation of FastDiff demonstrates the state-of-the-art results with higher-quality (MOS 4.28) speech samples. Also, FastDiff enables a sampling speed of 58x faster than real-time on a V100 GPU, making diffusion models practically applicable to speech synthesis deployment for the first time. We further show that FastDiff generalized well to the mel-spectrogram inversion of unseen speakers, and FastDiff-TTS outperformed other competing methods in end-to-end text-to-speech synthesis. Audio samples are available at \url{https://FastDiff.github.io/}.

연구 동기 및 목표

산업 현장에서 고품질, 실시간 음성 합성을 위한 확산 모델의 동기를 부여한다.
잡음 샘플에서 장기 시간 의존성을 처리하는 빠르고 강인한 확산 기반 보코더를 개발한다.
품질 저하 없이 역 샘플링 단계를 줄이기 위해 학습된 노이즈 스케줄을 활용한다.
텍스트에서 직접 파형을 생성하는 엔드-투-엔드 텍스트-투-스피치(FastDiff-TTS)를 가능하게 한다.
미공개 화자에 대한 일반화 및 최첨단 기반선 대비 MOS 점수에서 경쟁력 있는 또는 우수한 성능을 보임을 보여준다.

제안 방법

빠른 조건부 확산 모델 FastDiff를 제안하며, 확산 시간 및 음향 특징에 따라 조건화된 장기 시간 의존성을 포착하기 위해 시간 의식 위치 가변 컨볼루션 스택을 사용한다.
짧고 효과적인 샘플링 스케줄을 도출하기 위한 노이즈 스케줄 예측기를 도입하여 몇 단계의 역 확산을 가능하게 한다.
또한 점수 기반 목표를 최소화하는 반복 정제 모델 θ와 더 촘촘한 노이즈 스케줄을 학습하는 독립적인 노이즈 예측기 φ를 도입하여 ELBO 기반 학습으로 훈련한다.
효율적인 추론을 가능하게 하기 위해 스케줄 정렬을 통해 연속된 학습 스텝에 맞춘 연속적 노이즈 스케줄을 정렬한다.
FastDiff-TTS로 확장하여, 중간 Mel-스펙트로그램 없이 음소 임베디드 맥락에서 직접 파형을 디코딩하는 엔드-투-엔드 TTS 시스템을 FastSpeech 2 스타일의 인코더와 확산 기반 디코더를 사용해 구현한다.
지속 시간 예측, 확산 노이즈 재구성, 피치 재구성 등 End-to-End TTS 훈련을 안정화시키는 손실 항목을 포함한다.

실험 결과

연구 질문

RQ1FastDiff가 자연스러움과 또렷함을 유지하면서도 몇 개의 확산 단계로 고품질 음성을 달성할 수 있는가?
RQ2시간 의식 위치 가변 컨볼루션이 전통적인 확산 기반 보코딩에서 견고성과 샘플링 속도를 개선하는가?
RQ3학습된 노이즈 스케줄이 품질을 손상시키지 않으면서 확산 샘플링을 얼마나 가속시킬 수 있는가?
RQ4엔드 투 엔드 확산 기반 TTS(FastDiff-TTS)가 품질 면에서 카스케이드 TTS 시스템에 필적하거나 앞설 수 있는가, 파이프라인을 단순화하면서도?
RQ5FastDiff가 미공개 화자 및 조건에서 일반화에 강한가(멀티-스피커 TTS 등)?

주요 결과

FastDiff는 단 4개의 샘플링 단계로 고품질 음성을 달성하여 최첨단 보코더와 경쟁력 있는 MOS 점수를 제공합니다.
FastDiff는 특수 커널 없이 V100 GPU에서 실시간보다 58배 빠른 샘플링 속도를 달성합니다.
시간 의식 위치 가변 컨볼루션은 전통적 컨볼루션과 비교하여 샘플링 속도와 지각적 품질을 현저히 향상시킵니다.
노이즈 스케줄 예측기는 느린 그리드 검색 기반 스케줄링에 비해 품질 저하를 최소화하면서 효율적인 추론을 가능하게 합니다.
FastDiff-TTS는 엔드-투-엔드 TTS 시스템으로 경쟁하는 엔드-투-엔드 모델을 능가하고 카스케이드 TTS 파이프라인의 품질에 근접하거나 이를 상회할 수 있습니다.
FastDiff는 보편적으로 unseen 화자에 대해 강한 일반화 능력을 보이며 도메인 외 데이터의 멜-스펙트로그램 반전에서도 견고한 성능을 유지합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.