QUICK REVIEW

[논문 리뷰] Voice Conversion Challenge 2020: Intra-lingual semi-parallel and cross-lingual voice conversion

Yi Zhao, Wen-Chin Huang|arXiv (Cornell University)|2020. 08. 28.

Speech Recognition and Synthesis인용 수 34

한 줄 요약

본 논문은 VCC 2020을 보고한다: 두 가지 과제(동일언어 반병렬 및 교차언어 VC), 새로운 다국어 데이터셋, 제출된 시스템들, 그리고 주관적 평가를 통해 빠른 VC 발전을 보였으나 교차언어 시나리오에서 특히 인간 자연성에 미치는 여지가 남아 있음을 보여준다.

ABSTRACT

The voice conversion challenge is a bi-annual scientific event held to compare and understand different voice conversion (VC) systems built on a common dataset. In 2020, we organized the third edition of the challenge and constructed and distributed a new database for two tasks, intra-lingual semi-parallel and cross-lingual VC. After a two-month challenge period, we received 33 submissions, including 3 baselines built on the database. From the results of crowd-sourced listening tests, we observed that VC methods have progressed rapidly thanks to advanced deep learning methods. In particular, speaker similarity scores of several systems turned out to be as high as target speakers in the intra-lingual semi-parallel VC task. However, we confirmed that none of them have achieved human-level naturalness yet for the same task. The cross-lingual conversion task is, as expected, a more difficult task, and the overall naturalness and similarity scores were lower than those for the intra-lingual conversion task. However, we observed encouraging results, and the MOS scores of the best systems were higher than 4.0. We also show a few additional analysis results to aid in understanding cross-lingual VC better.

연구 동기 및 목표

동일언어 반병렬 및 교차언어 설정 전반에 걸쳐 VC 방법을 비교하기 위한 공통 데이터셋과 과제를 제공한다.
자연스러움과 화자 유사성에 걸친 크라우드소싱 청취 테스트를 이용해 VC 시스템의 발전을 평가한다.
언어 차이가 VC 성능 평가에 미치는 영향을 이해한다.
참가자들이 사용한 시스템 아키텍처와 파형 생성 방법을 문서화한다.

제안 방법

EMIME 다국어 코퍼스에서 두 가지 VC 과제(동일언어 반병렬 및 교차언어)를 구축한다.
학습 및 평가 데이터를 공개하고 참가자들로부터 제출을 받는다(베이스라인 포함 34 시스템).
특징 변환 모델을 인코더-디코더, GAN 기반, 병렬 스펙트럴 매핑으로 분류하고 과제 간 사용 현황을 분석한다.
다국어에 걸친 주관적 MOS 기반 자연스러움 및 동일/다른 화자 유사도 테스트로 변환 음성을 평가하고, 신경망 및 전통적 보코더를 비교한다.
분석을 위한 베이스라인 시스템과 대표 시스템(T10 등)의 자세한 설명을 제공한다.

실험 결과

연구 질문

RQ1공통 데이터셋에서 동일언어 반병렬 대 교차언어 설정의 VC 시스템 성능은 어떠한가?
RQ2각 과제에서 최상의 성능을 이끄는 아키텍처(인코더-디코더, GAN 기반, 병렬 스펙트럴 매핑)와 보코더는 무엇인가?
RQ3언어 차이가 VC의 자연스러움과 화자 유사도 평가에 어느 정도 영향을 미치는가?
RQ4교차언어 VC에서 실제 자연스러운 음성과 변환 음성 간의 차이에 대해 어떤 시사점을 얻을 수 있는가?
RQ5최상위 시스템은 이들 과제에서 인간 수준의 자연성과 어떻게 비교되는가?

주요 결과

딥러닝 덕분에 VC 방법이 빠르게 진전되었으며, 일부 동일언어 반병렬 시스템은 대상 화자에 근접한 화자 유사도 점수를 달성했다.
동일언어 반병렬 VC에서는 인간 수준의 자연성에 도달한 시스템이 없었다.
교차언어 VC는 더 도전적이었지만, 최고 시스템의 자연스러움 MOS 점수는 4.0을 넘었다.
제출물의 상당 부분이 특징 변환에 인코더-디코더 또는 GAN 기반 모델을 사용했으며 비병렬 데이터인 경우가 많았다; 병렬 스펙트럴 모델은 덜 일반적이었다.
신경보코더(WaveNet, WaveRNN, LPCNet, Parallel WaveGAN 등) 및 비자기회귀 보코더(WaveGlow, MelGAN, NSF 등)가 파형 생성에 널리 채택되었고, 전통적 보코더(WORLD, Griffin-Lim)도 일부 시스템에서 사용되었다.
평가는 모국어 화자와 비모국어 화자를 포함했고, 교차언어 과제는 영어, 독일어, 핀란드어, 중국어(만다린) 등 여러 언어의 기준 참고를 사용하여 실용적 번역 시나리오를 반영했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.