[논문 리뷰] Parallel-Data-Free Voice Conversion Using Cycle-Consistent Adversarial Networks
본 논문은 CycleGAN-VC를 제안합니다. 게이트드 CNN과 항등 매핑 손실을 갖춘 순환일관 GAN을 이용하여 병렬 데이터 없이 소스 음성을 대상 음성으로 매핑하고, 과도한 매끄러움을 줄이는 병렬 데이터 프리 보이스 컨버전 방법입니다.
We propose a parallel-data-free voice-conversion (VC) method that can learn a mapping from source to target speech without relying on parallel data. The proposed method is general purpose, high quality, and parallel-data free and works without any extra data, modules, or alignment procedure. It also avoids over-smoothing, which occurs in many conventional statistical model-based VC methods. Our method, called CycleGAN-VC, uses a cycle-consistent adversarial network (CycleGAN) with gated convolutional neural networks (CNNs) and an identity-mapping loss. A CycleGAN learns forward and inverse mappings simultaneously using adversarial and cycle-consistency losses. This makes it possible to find an optimal pseudo pair from unpaired data. Furthermore, the adversarial loss contributes to reducing over-smoothing of the converted feature sequence. We configure a CycleGAN with gated CNNs and train it with an identity-mapping loss. This allows the mapping function to capture sequential and hierarchical structures while preserving linguistic information. We evaluated our method on a parallel-data-free VC task. An objective evaluation showed that the converted feature sequence was near natural in terms of global variance and modulation spectra. A subjective evaluation showed that the quality of the converted speech was comparable to that obtained with a Gaussian mixture model-based method under advantageous conditions with parallel and twice the amount of data.
연구 동기 및 목표
- 병렬 데이터나 추가 정렬 모듈 없이 보이스 컨버전에 대한 필요성과 필요성을 동기 부여합니다.
- 전통적인 방법에서 내재된 과도한 평활화 현상을 피하는 일반적이고 고품질의 VC 접근 방식을 개발합니다.
- CycleGAN을 활용하여 비-페어 데이터에서 앞으로의 매핑과 역방향 매핑을 학습하는 동시에 언어 정보의 보존을 달성합니다.
- CycleGAN-VC가 VCC 2016에서 parallel 데이터 없이 거의 자연스러운 특징 변환을 달성할 수 있음을 시연합니다.
제안 방법
- 적대적 및 사이클 일관성 손실로 학습된 앞으로의 매핑(G_X->Y)과 역방향 매핑(G_Y->X)을 갖춘 CycleGAN을 사용합니다.
- 시퀀스 및 계층적 음성 구조를 포착하기 위해 게이트 CNN(GLU 활성화)을 도입합니다.
- 언어 정보를 보존하고 사이클 및 아이덴티티 항에 대해 L1 손실을 사용하는 아이덴티티 매핑 손실을 추가합니다.
- 학습 안정화를 위해 최소제곱 GAN(Objective)을 사용하여 훈련합니다.
- 소스와 대상은 24 Mel-cepstral 계수, 로그 F0, APs로 표현하고 MCEP 도메인을 변환하며 F0도 적절히 변환합니다.
- WORLD 보코더 기반 특징과 데이터 배치 다양성을 높이기 위한 세그먼트의 무작위 자르기를 사용합니다.
실험 결과
연구 질문
- RQ1병렬 데이터 없이 CycleGAN 기반 모델이 소스에서 대상로의 보이스 매핑을 학습할 수 있는가?
- RQ2게이트 CNN과 아이덴티티 매핑 손실을 도입하면 과도한 매끄러움을 줄이면서 언어 정보를 보존하는가?
- RQ3데이터 조건이 제한된 경우 병렬 데이터 프리 CycleGAN-VC의 성능은 데이터가 있는 GMM 기반 VC에 비해 어떤가?
- RQ4변환된 MCEP의 품질을 나타내는 객관적 척도(GV, MS)와 주관적 MOS 점수는 무엇인가?
- RQ5반쪽 데이터 및 비병렬성으로 비 ideal 데이터 조건에서 CycleGAN-VC가 경쟁력이 있는가?
주요 결과
- GLU가 있는 CycleGAN-VC는 타깃에 가장 근접한 MCEP 시퀀스를 GV 및 MS에서 ablative 및 GMM-VC 기준선과 비교해 달성합니다.
- 로그 MS에 대한 객관적 RMSE는 GLU가 있는 CycleGAN-VC가 GLU가 없는 CycleGAN-VC 및 비-GLU 변형들을 모든 화자 쌍에서 능가함을 보여줍니다.
- 주관적 MOS는 병렬 데이터가 없는 조건에서 CycleGAN-VC가 VCC 2016 기준선보다 자연스러움 측면에서 우수하다는 것을 시사합니다.
- CycleGAN-VC는 비병렬 데이터에도 불구하고 데이터의 두 배에 해당하는 병렬 데이터로 학습된 GMM 기반 방법과 비슷한 성능을 보입니다.
- 적대적 손실로 인한 과도한 매끄러움을 줄이고 순차 구조 모델링에 GLU 활성화의 이점을 활용합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.