Skip to main content
QUICK REVIEW

[논문 리뷰] Diffusion-Based Voice Conversion with Fast Maximum Likelihood Sampling Scheme

Popov Va, Ivan Vovk|arXiv (Cornell University)|2021. 09. 28.
Speech Recognition and Synthesis참고 문헌 36인용 수 25
한 줄 요약

이 논문은 고유한 최대-우도 SDE 샘플링 스킴을 갖춘 확산 기반의 일회성 다대다 음성 변환 시스템을 제시하며, 재학습 없이도 겨우 여섯 단계의 역 확산으로 고품질의 VC를 가능하게 한다.

ABSTRACT

Voice conversion is a common speech synthesis task which can be solved in different ways depending on a particular real-world scenario. The most challenging one often referred to as one-shot many-to-many voice conversion consists in copying the target voice from only one reference utterance in the most general case when both source and target speakers do not belong to the training dataset. We present a scalable high-quality solution based on diffusion probabilistic modeling and demonstrate its superior quality compared to state-of-the-art one-shot voice conversion approaches. Moreover, focusing on real-time applications, we investigate general principles which can make diffusion models faster while keeping synthesis quality at a high level. As a result, we develop a novel Stochastic Differential Equations solver suitable for various diffusion model types and generative tasks as shown through empirical studies and justify it by theoretical analysis.

연구 동기 및 목표

  • 보이지 않는 화자의 일회성 다대다 음성 변환의 도전을 해결한다.
  • 평균 음성 표현을 생성하는 인코더를 가진 확산 확률 모델을 제안한다.
  • 다양한 확산 모델 유형에서 작동하는 빠르고 우도 기반의 SDE 샘플링 스킴을 개발한다.
  • VCTK와 LibriTTS에서 최첨단 VC 베이스라인 대비 경쟁력 있는 성능을 시연한다.
  • 품질과 속도를 균형 있게 하기 위한 컨디셔닝 전략과 샘플링 스킴을 분석한다.

제안 방법

  • 입력을 멜 스펙트로그램으로 매핑하여 평균 음성(phoneme 수준의 평균 음성)을 나타내는 인코더를 사용한다.
  • 전방(F) 및 역방(R) 다이나믹스를 갖는 Itô SDE로 매개변수화된 확산 디코더를 사용하여 목표 멜-스펙트로그램을 생성한다.
  • trainable 네트워크 g_t(Y)를 통해 대상 화자에 역 확산을 조건화하고 입력 형식(d-only, wodyn, whole)을 실험한다.
  • 가중된 L2 손실을 최소화하여 p_t(X_t|X_0)의 점수와 순방향 확산 통계에서 파생된 역방향 프로세스의 점수를 기반으로 역방향 프로세스를 훈련한다.
  • 작은 스텝 수에서 경로 가능도를 최대화하기 위해 이론적으로 도출된 최적 매개변수(kappa*, omega*, sigma*)를 갖는 고정 스텝 최대-우도 역 SDE 해석기(ML-SDE)를 도입한다.
  • HiFi-GAN 보코더를 사용하여 Diff-VCTK 및 Diff-LibriTTS를 평가하고 최첨단 일회성 VC 베이스라인과 비교한다.

실험 결과

연구 질문

  • RQ1확산 기반 프레임워크가 보이지 않는 화자에 대해서도 경쟁력 있는 일회성 다대다 음성 변환을 달성할 수 있는가?
  • RQ2재학습 없이도 확산 모델에서 샘플링을 어떻게 가속화하면서 품질을 유지할 수 있는가?
  • RQ3화자 임베딩과 노이즈가 있는 목표 멜-스펙트로그램 모두를 조건으로 주는 것이 VC 성능을 향상시키는가?
  • RQ4최대-우도 SDE 해석기가 확산 모델 유형 간에 표준 해석기(EM, PF)와 비교하여 어떤 차이를 보이는가?

주요 결과

  • 제안된 Diff-VCTK 및 Diff-LibriTTS 모델은 보이지 않는 대 보이지 않는 변환에서 여러 베이스라인보다 주관적 자연스러움과 화자 유사성이 더 높다.
  • wodyn 조건화(화자 임베딩 plus 노이즈가 있는 대상 멜-스펙트로그램)를 사용하는 것이 다른 조건 입력보다 지각적 유사성이 더 좋다.
  • 최대-우도 샘플링 스킴(ML-N, ML-30)은 역 확산 단계를 단 6단계로도 MOS를 경쟁적으로 달성하며, 자연스러움은 약 0.2, 유사성은 약 0.1의 소폭 저하를 보인다.
  • LibriTTS에서 Diff-LibriTTS-ML-30은 전체 테스트 세트에서 자연스러움 MOS 약 4.0, 유사성 약 3.39를 달성하며 자연스러움에서 BNE-PPG-VC 베이스라인을 상회하고 유사성에 근접하다.
  • 제안된 ML 샘플링 스킴은 샘플링 효율성을 크게 개선하고 6단계에서 GPU에서 실시간 인자(real-time factor) 약 0.1를 달성할 수 있으며(30단계 대비 약 0.5)
  • ML 샘플러는 다른 확산 모델 유형과 작업(CIFAR-10 이미지 생성 등)으로 일반화되며 우도 기반 샘플링의 성능 향상을 가져올 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.