Skip to main content
QUICK REVIEW

[논문 리뷰] Parallel-Data-Free Voice Conversion Using Cycle-Consistent Adversarial Networks

Takuhiro Kaneko, Hirokazu Kameoka|arXiv (Cornell University)|2017. 11. 30.
Speech Recognition and Synthesis참고 문헌 32인용 수 179
한 줄 요약

본 논문은 CycleGAN-VC를 제안합니다. 게이트드 CNN과 항등 매핑 손실을 갖춘 순환일관 GAN을 이용하여 병렬 데이터 없이 소스 음성을 대상 음성으로 매핑하고, 과도한 매끄러움을 줄이는 병렬 데이터 프리 보이스 컨버전 방법입니다.

ABSTRACT

We propose a parallel-data-free voice-conversion (VC) method that can learn a mapping from source to target speech without relying on parallel data. The proposed method is general purpose, high quality, and parallel-data free and works without any extra data, modules, or alignment procedure. It also avoids over-smoothing, which occurs in many conventional statistical model-based VC methods. Our method, called CycleGAN-VC, uses a cycle-consistent adversarial network (CycleGAN) with gated convolutional neural networks (CNNs) and an identity-mapping loss. A CycleGAN learns forward and inverse mappings simultaneously using adversarial and cycle-consistency losses. This makes it possible to find an optimal pseudo pair from unpaired data. Furthermore, the adversarial loss contributes to reducing over-smoothing of the converted feature sequence. We configure a CycleGAN with gated CNNs and train it with an identity-mapping loss. This allows the mapping function to capture sequential and hierarchical structures while preserving linguistic information. We evaluated our method on a parallel-data-free VC task. An objective evaluation showed that the converted feature sequence was near natural in terms of global variance and modulation spectra. A subjective evaluation showed that the quality of the converted speech was comparable to that obtained with a Gaussian mixture model-based method under advantageous conditions with parallel and twice the amount of data.

연구 동기 및 목표

  • 병렬 데이터나 추가 정렬 모듈 없이 보이스 컨버전에 대한 필요성과 필요성을 동기 부여합니다.
  • 전통적인 방법에서 내재된 과도한 평활화 현상을 피하는 일반적이고 고품질의 VC 접근 방식을 개발합니다.
  • CycleGAN을 활용하여 비-페어 데이터에서 앞으로의 매핑과 역방향 매핑을 학습하는 동시에 언어 정보의 보존을 달성합니다.
  • CycleGAN-VC가 VCC 2016에서 parallel 데이터 없이 거의 자연스러운 특징 변환을 달성할 수 있음을 시연합니다.

제안 방법

  • 적대적 및 사이클 일관성 손실로 학습된 앞으로의 매핑(G_X->Y)과 역방향 매핑(G_Y->X)을 갖춘 CycleGAN을 사용합니다.
  • 시퀀스 및 계층적 음성 구조를 포착하기 위해 게이트 CNN(GLU 활성화)을 도입합니다.
  • 언어 정보를 보존하고 사이클 및 아이덴티티 항에 대해 L1 손실을 사용하는 아이덴티티 매핑 손실을 추가합니다.
  • 학습 안정화를 위해 최소제곱 GAN(Objective)을 사용하여 훈련합니다.
  • 소스와 대상은 24 Mel-cepstral 계수, 로그 F0, APs로 표현하고 MCEP 도메인을 변환하며 F0도 적절히 변환합니다.
  • WORLD 보코더 기반 특징과 데이터 배치 다양성을 높이기 위한 세그먼트의 무작위 자르기를 사용합니다.

실험 결과

연구 질문

  • RQ1병렬 데이터 없이 CycleGAN 기반 모델이 소스에서 대상로의 보이스 매핑을 학습할 수 있는가?
  • RQ2게이트 CNN과 아이덴티티 매핑 손실을 도입하면 과도한 매끄러움을 줄이면서 언어 정보를 보존하는가?
  • RQ3데이터 조건이 제한된 경우 병렬 데이터 프리 CycleGAN-VC의 성능은 데이터가 있는 GMM 기반 VC에 비해 어떤가?
  • RQ4변환된 MCEP의 품질을 나타내는 객관적 척도(GV, MS)와 주관적 MOS 점수는 무엇인가?
  • RQ5반쪽 데이터 및 비병렬성으로 비 ideal 데이터 조건에서 CycleGAN-VC가 경쟁력이 있는가?

주요 결과

  • GLU가 있는 CycleGAN-VC는 타깃에 가장 근접한 MCEP 시퀀스를 GV 및 MS에서 ablative 및 GMM-VC 기준선과 비교해 달성합니다.
  • 로그 MS에 대한 객관적 RMSE는 GLU가 있는 CycleGAN-VC가 GLU가 없는 CycleGAN-VC 및 비-GLU 변형들을 모든 화자 쌍에서 능가함을 보여줍니다.
  • 주관적 MOS는 병렬 데이터가 없는 조건에서 CycleGAN-VC가 VCC 2016 기준선보다 자연스러움 측면에서 우수하다는 것을 시사합니다.
  • CycleGAN-VC는 비병렬 데이터에도 불구하고 데이터의 두 배에 해당하는 병렬 데이터로 학습된 GMM 기반 방법과 비슷한 성능을 보입니다.
  • 적대적 손실로 인한 과도한 매끄러움을 줄이고 순차 구조 모델링에 GLU 활성화의 이점을 활용합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.