QUICK REVIEW

[논문 리뷰] StarGAN-VC: Non-parallel many-to-many voice conversion with star generative adversarial networks

Hirokazu Kameoka, Takuhiro Kaneko|arXiv (Cornell University)|2018. 06. 06.

Speech Recognition and Synthesis참고 문헌 37인용 수 48

한 줄 요약

StarGAN-VC는 목표 속성으로 조건화된 단일 생성기를 사용하여 비병렬 다대다 음성 변환을 가능하게 하고, 몇 분 분량의 학습 데이터로 실시간 성능을 달성하며 주관적 테스트에서 VAE-GAN 베이스라인을 능가합니다.

ABSTRACT

This paper proposes a method that allows non-parallel many-to-many voice conversion (VC) by using a variant of a generative adversarial network (GAN) called StarGAN. Our method, which we call StarGAN-VC, is noteworthy in that it (1) requires no parallel utterances, transcriptions, or time alignment procedures for speech generator training, (2) simultaneously learns many-to-many mappings across different attribute domains using a single generator network, (3) is able to generate converted speech signals quickly enough to allow real-time implementations and (4) requires only several minutes of training examples to generate reasonably realistic-sounding speech. Subjective evaluation experiments on a non-parallel many-to-many speaker identity conversion task revealed that the proposed method obtained higher sound quality and speaker similarity than a state-of-the-art method based on variational autoencoding GANs.

연구 동기 및 목표

병렬 발화나 정렬 없이 다중 대상 속성 간의 비병렬 음성 변환(다대다)을 가능하게 한다.
모든 속성 도메인 간의 매핑을 효율적으로 모델링하기 위해 단일 제너레이터 네트워크를 사용한다.
실용적인 배포에 적합한 실시간 또는 근실시간 음성 변환을 달성한다.
VAE-GAN 베이스라인에 비해 주관적 음질과 화자 유사성이 향상되었음을 입증한다.

제안 방법

단일 인코더-디코더 제너레이터 G를 대상 속성 c로 조건화하여 여러 도메인 매핑을 학습하기 위해 StarGAN을 채택한다.
변환된 음성이 현실적이고 대상 속성에 속함을 보장하기 위해 real/fake 판별기 D와 도메인 분류기 C를 학습시킨다.
적대적 손실 L_adv, 도메인 분류 손실 L_cls, 순환 일관성 손실 L_cyc, 항등 손실 L_id를 사용하여 매핑을 정규화한다(Equations 9–17).
속성을 이어 붙인 원-핫 벡터로 표현하고, 인코더-디코더 구조에서 GLU(gated linear unit)가 있는 완전 컨벌루션 CNN으로 G를 모델링한다.
음향 특성 시퀀스(멜-케프스트럼 계수)에 작동하는 PatchGAN 유사한 판별기 D와 도메인 분류기 C를 사용해 구간별 real/fake 및 클래스 확률을 산출한다.
WORLD를 사용하여 멜-케프스트럼 특징으로 시퀀스를 변환하고, 보코더를 통한 스펙트럴 게인 기반의 시간 영역 재구성(section 3.2).

실험 결과

연구 질문

RQ1StarGAN를 사용한 단일 제너레이터로 비병렬 다대다 음성 변환을 달성할 수 있는가?
RQ2StarGAN-VC가 다수 화자에 걸쳐 다양한 속성 전이를 가능하게 하면서도 언어적 내용을 보존하는가?
RQ3이 방법은 실시간 변환이 가능하며 단 몇 분의 학습 데이터만 필요한가?
RQ4품질 및 유사성 측면에서 StarGAN-VC가 CVAE-VC나 CycleGAN-VC와 같은 비병렬 VC 접근법과 어떻게 비교되는가?

주요 결과

주관적 평가에서 StarGAN-VC가 VAE-GAN 베이스라인보다 더 높은 음질을 보인다.
ABX 테스트에서 StarGAN-VC가 대상 화자에 대한 화자 유사성을 베이스라인보다 더 좋게 달성한다.
이 방법은 단일 제너레이터를 이용해 여러 화자 속성에 걸쳐 비병렬 다대다 변환을 지원한다.
실시간 유사한 효율로 작동하며 학습 데이터는 몇 분에 불과하다.
네 명의 대상 화자를 사용한 VCC 2018 데이터세트 실험은 인지된 품질과 유사성에서 유의한 성능 향상을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.