[논문 리뷰] Voice Conversion from Non-parallel Corpora Using Variational Auto-encoder
이 논문은 프레임별로 정렬된 자료나 병렬 훈련 데이터가 필요 없는 비평행적, 비정렬 음성 코퍼스를 사용하여 음성 변환을 수행할 수 있는 변분 오토인코더(VAE) 기반 스펙트럼 변환 프레임워크를 제안한다. 이 방법은 인코더를 통해 발음에 독립적인 음소 표현을 학습하고 디코더를 통해 타겟 화자 스펙트럼을 재구성함으로써, 객관적(MCD) 및 주관적(MOS) 평가에서 정렬 기반 기준 모델과 유사한 성능을 달성한다.
We propose a flexible framework for spectral conversion (SC) that facilitates training with unaligned corpora. Many SC frameworks require parallel corpora, phonetic alignments, or explicit frame-wise correspondence for learning conversion functions or for synthesizing a target spectrum with the aid of alignments. However, these requirements gravely limit the scope of practical applications of SC due to scarcity or even unavailability of parallel corpora. We propose an SC framework based on variational auto-encoder which enables us to exploit non-parallel corpora. The framework comprises an encoder that learns speaker-independent phonetic representations and a decoder that learns to reconstruct the designated speaker. It removes the requirement of parallel corpora or phonetic alignments to train a spectral conversion system. We report objective and subjective evaluations to validate our proposed method and compare it to SC methods that have access to aligned corpora.
연구 동기 및 목표
- 병렬 코퍼스나 프레임별 정렬이 필요 없는 스펙트럼 변환 프레임워크를 개발하는 것.
- 원천 화자 및 타겟 화자로부터의 정렬되지 않은 음성 데이터만을 사용하여 음성 변환을 가능하게 하는 것.
- VAE 기반 오토인코더 환경에서 화자 신원과 분리된 발음 표현을 효과적으로 분리할 수 있는지 조사하는 것.
- 객관적 및 주관적 지표를 사용하여 정렬 기반 기준 모델과의 성능 비교를 검증하는 것.
- 프레임워크를 다수 대 다수 음성 변환으로 확장할 수 있는지 탐색하는 것.
제안 방법
- 프레임워크는 공유 인코더를 갖춘 VAE를 사용하여 스펙트럼 프레임을 공유 잠재 공간으로 매핑함으로써, 발음 내용과 화자 신원을 분리한다.
- 디코더는 화자별로 고유한 잠재 코드를 사용하여 타겟 화자 스펙트럼을 재구성함으로써 제어 가능한 스펙트럼 재구성을 가능하게 한다.
- 모델은 데이터의 로그우도에 대한 변분 하한을 최대화함으로써 비병렬 데이터에서 엔드 투 엔드로 훈련된다.
- 화자 신원은 디코더의 입력으로 원-핫 벡터로 모델링되어 공유된 발음 표현에서 화자별 출력을 생성할 수 있도록 한다.
- 프레임워크는 쌍별(VAE-pair) 및 다중화자(VAE-multi) 설정을 모두 지원하며, VAE-multi는 단일 모델 내에서 12개의 화자 조합을 통합한다.
- 분리된 훈련 변형(VAE-disj)은 원천 및 타겟 화자를 별도로 훈련하여 더 엄격한 데이터 제약 조건 하에서의 강건성을 테스트한다.
실험 결과
연구 질문
- RQ1VAE 기반 프레임워크는 병렬 또는 정렬된 훈련 데이터가 없이도 경쟁 가능한 스펙트럼 변환 성능을 달성할 수 있는가?
- RQ2비정렬 코퍼스에서 분리된 화자 독립적 발음 표현을 얼마나 잘 학습할 수 있는가?
- RQ3객관적 및 주관적 지표 측면에서 제안된 방법의 성능이 정렬 기반 기준 모델과 비교해 어떻게 되는가?
- RQ4프레임워크는 미리 보지 않은 화자 조합을 포함한 다수 대 다수 음성 변환을 지원할 수 있는가?
- RQ5비병렬 데이터에서 훈련된 모델이 높은 음성 품질과 유사도를 유지하는가?
주요 결과
- VAE-pair 모델은 평가 세트에서 평균 MCD 3.58을 기록하여, 정렬된 데이터를 사용한 기준 모델 ENMF-3000과 유사한 성능을 보였다.
- 주관적 MOS 평가에서 음성 품질은 VAE-pair가 2.76(SD 0.44), ENMF-3000이 2.75(SD 0.50)였으며, 이는 인식된 품질에 유의미한 열화가 없음을 시사한다.
- 비병렬 데이터에서 훈련된 VAE-disj 모델은 VAE-pair의 절반 크기의 훈련 데이터로도 거의 동일한 성능를 보였으며, 데이터 제약 조건 하에서도 강건함을 입증했다.
- VAE-multi 모델은 VAE-pair 수준의 MCD 성능를 달성하면서도 12개의 화자 조합을 단일 모델에 통합하여 다수 대 다수 변환 가능성을 시사했다.
- ABX 테스트 결과 VAE-pair와 ENMF-3000 간의 타겟 유사도에 유의미한 차이가 없었으며, 이는 동일한 수준의 화자 신원 전달 성능를 확인했다.
- 결과적으로, 명시적 프레임별 정렬이 고품질 스펙트럼 변환을 위해 반드시 필요한 것은 아니며, VAE 프레임워크는 분리된 표현 학습을 통해 필요한 매핑을 암묵적으로 학습함을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.