[논문 리뷰] StarGAN-VC: Non-parallel many-to-many voice conversion with star generative adversarial networks
StarGAN-VC는 목표 속성으로 조건화된 단일 생성기를 사용하여 비병렬 다대다 음성 변환을 가능하게 하고, 몇 분 분량의 학습 데이터로 실시간 성능을 달성하며 주관적 테스트에서 VAE-GAN 베이스라인을 능가합니다.
This paper proposes a method that allows non-parallel many-to-many voice conversion (VC) by using a variant of a generative adversarial network (GAN) called StarGAN. Our method, which we call StarGAN-VC, is noteworthy in that it (1) requires no parallel utterances, transcriptions, or time alignment procedures for speech generator training, (2) simultaneously learns many-to-many mappings across different attribute domains using a single generator network, (3) is able to generate converted speech signals quickly enough to allow real-time implementations and (4) requires only several minutes of training examples to generate reasonably realistic-sounding speech. Subjective evaluation experiments on a non-parallel many-to-many speaker identity conversion task revealed that the proposed method obtained higher sound quality and speaker similarity than a state-of-the-art method based on variational autoencoding GANs.
연구 동기 및 목표
- 병렬 발화나 정렬 없이 다중 대상 속성 간의 비병렬 음성 변환(다대다)을 가능하게 한다.
- 모든 속성 도메인 간의 매핑을 효율적으로 모델링하기 위해 단일 제너레이터 네트워크를 사용한다.
- 실용적인 배포에 적합한 실시간 또는 근실시간 음성 변환을 달성한다.
- VAE-GAN 베이스라인에 비해 주관적 음질과 화자 유사성이 향상되었음을 입증한다.
제안 방법
- 단일 인코더-디코더 제너레이터 G를 대상 속성 c로 조건화하여 여러 도메인 매핑을 학습하기 위해 StarGAN을 채택한다.
- 변환된 음성이 현실적이고 대상 속성에 속함을 보장하기 위해 real/fake 판별기 D와 도메인 분류기 C를 학습시킨다.
- 적대적 손실 L_adv, 도메인 분류 손실 L_cls, 순환 일관성 손실 L_cyc, 항등 손실 L_id를 사용하여 매핑을 정규화한다(Equations 9–17).
- 속성을 이어 붙인 원-핫 벡터로 표현하고, 인코더-디코더 구조에서 GLU(gated linear unit)가 있는 완전 컨벌루션 CNN으로 G를 모델링한다.
- 음향 특성 시퀀스(멜-케프스트럼 계수)에 작동하는 PatchGAN 유사한 판별기 D와 도메인 분류기 C를 사용해 구간별 real/fake 및 클래스 확률을 산출한다.
- WORLD를 사용하여 멜-케프스트럼 특징으로 시퀀스를 변환하고, 보코더를 통한 스펙트럴 게인 기반의 시간 영역 재구성(section 3.2).
실험 결과
연구 질문
- RQ1StarGAN를 사용한 단일 제너레이터로 비병렬 다대다 음성 변환을 달성할 수 있는가?
- RQ2StarGAN-VC가 다수 화자에 걸쳐 다양한 속성 전이를 가능하게 하면서도 언어적 내용을 보존하는가?
- RQ3이 방법은 실시간 변환이 가능하며 단 몇 분의 학습 데이터만 필요한가?
- RQ4품질 및 유사성 측면에서 StarGAN-VC가 CVAE-VC나 CycleGAN-VC와 같은 비병렬 VC 접근법과 어떻게 비교되는가?
주요 결과
- 주관적 평가에서 StarGAN-VC가 VAE-GAN 베이스라인보다 더 높은 음질을 보인다.
- ABX 테스트에서 StarGAN-VC가 대상 화자에 대한 화자 유사성을 베이스라인보다 더 좋게 달성한다.
- 이 방법은 단일 제너레이터를 이용해 여러 화자 속성에 걸쳐 비병렬 다대다 변환을 지원한다.
- 실시간 유사한 효율로 작동하며 학습 데이터는 몇 분에 불과하다.
- 네 명의 대상 화자를 사용한 VCC 2018 데이터세트 실험은 인지된 품질과 유사성에서 유의한 성능 향상을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.