QUICK REVIEW

[논문 리뷰] Voice Conversion from Unaligned Corpora using Variational Autoencoding Wasserstein Generative Adversarial Networks

Chin-Cheng Hsu, Hsin-Te Hwang|arXiv (Cornell University)|2017. 04. 04.

Speech Recognition and Synthesis참고 문헌 17인용 수 153

한 줄 요약

논문은 프레임 정렬 없이 목표 스피치를 합성하기 위해 조건부 변분 오토인코더(C-VAE)와 Wasserstein GAN(W-GAN)을 결합한 비병렬 보이스 컨버전 프레임워크를 제안한다. VAW-GAN 목표를 사용한 VC 손실을 직접 최적화하며, 기저 VAE보다 더 현실적인 스펙트럼을 산출한다.

ABSTRACT

Building a voice conversion (VC) system from non-parallel speech corpora is challenging but highly valuable in real application scenarios. In most situations, the source and the target speakers do not repeat the same texts or they may even speak different languages. In this case, one possible, although indirect, solution is to build a generative model for speech. Generative models focus on explaining the observations with latent variables instead of learning a pairwise transformation function, thereby bypassing the requirement of speech frame alignment. In this paper, we propose a non-parallel VC framework with a variational autoencoding Wasserstein generative adversarial network (VAW-GAN) that explicitly considers a VC objective when building the speech model. Experimental results corroborate the capability of our framework for building a VC system from unaligned data, and demonstrate improved conversion quality.

연구 동기 및 목표

프레임 정렬이 필요 없는 통일된 생성 음성 모델을 학습하여 병렬과 비병렬 보이스 컨버전 간의 격차를 줄인다.
발성자 독립 인코더로 음성 내용을 추론하고, 화자 표현으로 합성을 조건화한다.
VAE 프레임워크에 통합된 Wasserstein GAN 목표를 통해 보이스 컨버전 품질을 직접적으로 최적화한다.

제안 방법

프레임 정렬이나 후필터링 없이 프레임별 스펙트럴 피처 STRAIGHT SP, AP, F0를 사용하고, 생성 중에 임의의 화자 표현을 원-핫 벡터로 임베딩하여 생성하는 화자 의존 디코더를 갖는 조건부 VAE로 VC를 형식화한다.
GAN 목표를 사용하여 Real 대 Generated 스펙트럼을 구분하는 판별기를 도입하는 VAE-GAN 아이디어를 통해 C-VAE를 강화한다.
참된 목표 분포와 변환된 분포 간의 거리를 명시적으로 최소화하기 위해 1- Lipschitz 판별기를 통해 Wasserstein 거리 목표를 채택한다.
KL 발산, 재구성 손실, 그리고 W-GAN 손실(J_vawgan)을 포함하는 목표로 인코더, 합성기, 판별기를 교대로 최적화하는 공동 학습 방식을 사용한다.
프레임별 비병렬 VC를 조건부 생성기로 가능하게 하고 W-GAN 목표를 적용하여 일반 VAE 방식보다 인지적 품질을 향상시킨다.

실험 결과

연구 질문

RQ1프레임 정렬 없이 통일된 딥 생성 모델로 비병렬 보이스 컨버전을 효과적으로 수행할 수 있는가?
RQ2VAE 프레임워크에 Wasserstein GAN 목표를 도입하면 자연스러움과 스펙트럼 리얼리즘이 기저 VAE에 비해 향상되는가?
RQ3VC 손실의 직접적 최적화가 변이와 스펙트럼 구조에 어떤 영향을 주는가?
RQ4화자 조건부 합성기를 사용하는 것이 교차 화자 컨버전 품질에 어떤 영향을 미치는가?

주요 결과

VAW-GAN이 간질성 및 동일성 간 컨버전에서 인간 주관적 자연스러움(MOS)에서 VAE 베이스라인보다 우수하다.
VAW-GAN의 변환된 스펙트럼 프레임은 더 풍부한 스펙트럴 엔벨로프와 더 두드러진 주파수 구조를 보여 목소리를 더 명확하게 만든다.
VAW-GAN 출력은 더 높은 스펙트럴 분산을 보이며, 모델이 VAE보다 예측을 평균으로 축소하는 경향이 덜하다는 것을 시사한다.
프레임별 비병렬 VC는 조건부 생성기와 W-GAN 목표로 가능하며, 일반 VAE 접근법보다 품질 인지도가 향상된다.
화자 유사성 지표가 뚜렷한 개선을 보이지 않아 단일 글로벌 화자 표현이 화자 특성을 포착하는 데 한계를 보일 수 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.