QUICK REVIEW

[논문 리뷰] An Overview of Voice Conversion and its Challenges: From Statistical Modeling to Deep Learning

Berrak Şişman, Junichi Yamagishi|arXiv (Cornell University)|2020. 08. 09.

Speech Recognition and Synthesis참고 문헌 284인용 수 26

한 줄 요약

이 논문은 통계 모델링에서 딥러닝에 이르는 음성 변환(Voice Conversion, VC) 기술에 대한 종합적인 리뷰를 제공하며, 음성 분석, 스펙트럼 및 억양 매핑, 보코딩을 다룹니다. Voice Conversion Challenges(VCC)와 같은 벤치마크를 사용해 성능을 평가하고, 주요 데이터셋(VCTK, LibriTTS, VoxCeleb)을 강조하며 오픈소스 도구를 논의하여 신경망 기반 VC 및 음성 합성 분야의 연구자들에게 기초 자료를 제공합니다.

ABSTRACT

Speaker identity is one of the important characteristics of human speech. In voice conversion, we change the speaker identity from one to another, while keeping the linguistic content unchanged. Voice conversion involves multiple speech processing techniques, such as speech analysis, spectral conversion, prosody conversion, speaker characterization, and vocoding. With the recent advances in theory and practice, we are now able to produce human-like voice quality with high speaker similarity. In this paper, we provide a comprehensive overview of the state-of-the-art of voice conversion techniques and their performance evaluation methods from the statistical approaches to deep learning, and discuss their promise and limitations. We will also report the recent Voice Conversion Challenges (VCC), the performance of the current state of technology, and provide a summary of the available resources for voice conversion research.

연구 동기 및 목표

통계 모델링에서 딥러닝에 이르는 음성 변환 기법에 대한 종합적인 설문 조사 제공.
음성 변환 연구에서의 성능 평가 방법과 과제 분석.
2013년 이후 음성 변환 도전 과제(Voice Conversion Challenges, VCC)의 진화와 영향 문서화.
VCTK, LibriTTS, VoxCeleb를 포함한 공개 가능한 데이터셋과 도구를 요약하여 음성 변환 연구 지원.
VC 분야의 핵심 자원과 최신 기법을 종합하여 연구자들과 엔지니어들을 지원.

제안 방법

학습 데이터 기반(병렬 대비 비병렬), 모델링 접근 방식(매개수 기반 대비 비매개수 기반), 최적화 범위(프레임 수준 대비 문장 수준)에 따라 음성 변환 기법을 분류.
스펙트럼 매핑을 위한 통계적 방법으로 가우시안 믹스처 모델(Gaussian Mixture Models, GMM), 부분 최소 제곱법(Partial Least Squares, PLS), 동적 커널 PLS(Dynamic Kernel PLS, DKPLS) 검토.
비매개수 기반 기법으로 비음성 행렬 분해(Non-negative Matrix Factorization, NMF)와 예시 기반 희소 표현을 분석하여 과도한 부드러움을 줄이고 음질 향상.
병렬 음성 없이도 가능한 비병렬 VC 접근 방식으로, 발음 포스터리오그램(Phonetic Posterior Grams, PPG), INCA 정렬, 화자 모델 정렬을 검토.
엔드 투 엔드 매핑과 분리된 화자 표현을 위한 오토에인코드어, 변분 오토에인코드어(Variational Autoencoders, VAEs), 적대적 네트워크 기반 딥러닝 기반 VC 방법 분석.
대규모 저품질 데이터셋(LibriTTS, VoxCeleb)을 활용해 화자 인코더 학습 및 제로샷 또는 피카샷 VC에서의 일반화 능력 향상 검토.

실험 결과

연구 질문

RQ1성능와 일반화 능력 측면에서 통계 모델링에서 딥러닝으로의 음성 변환 기법의 진화는 어떠한가?
RQ2비병렬 음성 변환의 핵심 과제는 무엇이며, 정렬 및 PPG 기반 기법은 이를 어떻게 해결하는가?
RQ3음성 변환에 가장 효과적인 평가 지표와 벤치마크는 무엇이며, 이는 청취자 인식 품질과 화자 유사도를 어떻게 반영하는가?
RQ4VCTK, LibriTTS, VoxCeleb와 같은 대규모 오픈소스 데이터셋은 VC에서 데이터 요구량이 큰 딥러닝 모델 개발을 어떻게 지원하는가?
RQ5음성 변환 도전 과제(Voice Conversion Challenges, VCC)는 분야 발전과 재현 가능한 평가를 위해 어떤 역할을 하는가?

주요 결과

음성 변환 도전 과제(Voice Conversion Challenges, VCC)는 평가 표준화와 혁신을 이끄는 데 핵심적인 역할을 하였으며, 2016년과 2018년 최고 성능 시스템은 고도화된 위조 음성 생성에 사용됨.
PPG 기반 및 INCA 정렬을 포함한 비병렬 VC 기법은 쌍화된 학습 데이터 없이도 효과적인 변환을 가능하게 하여 적용 범위를 넓힘.
희소 표현 및 NMF 기반 기법은 과도한 부드러움을 줄이고, 특히 소규모 병렬 데이터셋에서 음질 향상에 기여.
대규모 데이터셋인 LibriTTS(585시간, 2,456명의 화자)와 VoxCeleb(2,800시간 이상, 6,000명 이상의 화자)는 강력한 화자 인코더 학습과 제로샷 또는 피카샷 변환을 가능하게 하여 필수적임.
VCC에서 생성된 위조 음성 데이터로 훈련된 반위조 시스템이 인간 청취자보다 합성 음성을 탐지하는 데 뛰어난 성능을 보이며, 실제 응용에서 강력한 탐지 기술의 필요성을 부각함.
ESPnet과 spocket과 같은 오픈소스 도구는 GMM 기반에서 엔드 투 엔드 신경망까지 다양한 VC 모델을 지원하여 재현 가능성과 커뮤니티 기반 개발을 촉진함.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.