Skip to main content
QUICK REVIEW

[논문 리뷰] The Voice Conversion Challenge 2018: Promoting Development of Parallel and Nonparallel Methods

Jaime Lorenzo-Trueba, Junichi Yamagishi|arXiv (Cornell University)|2018. 04. 12.
Speech Recognition and Synthesis참고 문헌 3인용 수 66
한 줄 요약

논문은 VCC 2018을 제시하며 Hub(병렬)와 Spoke(비병렬) 음성 변환 작업, 거대 크라우드소싱 지각 평가, 전통적 및 신경 VC 접근 방식 분석을 도입하며, N10이 자연스러움과 유사성에서 최우수 성능을 보임.

ABSTRACT

We present the Voice Conversion Challenge 2018, designed as a follow up to the 2016 edition with the aim of providing a common framework for evaluating and comparing different state-of-the-art voice conversion (VC) systems. The objective of the challenge was to perform speaker conversion (i.e. transform the vocal identity) of a source speaker to a target speaker while maintaining linguistic information. As an update to the previous challenge, we considered both parallel and non-parallel data to form the Hub and Spoke tasks, respectively. A total of 23 teams from around the world submitted their systems, 11 of them additionally participated in the optional Spoke task. A large-scale crowdsourced perceptual evaluation was then carried out to rate the submitted converted speech in terms of naturalness and similarity to the target speaker identity. In this paper, we present a brief summary of the state-of-the-art techniques for VC, followed by a detailed explanation of the challenge tasks and the results that were obtained.

연구 동기 및 목표

  • 최첨단 음성 변환 시스템을 평가하고 비교하기 위한 공통 프레임워크를 제공한다.
  • 일관된 청취 평가 하에서 병렬 및 비병렬 VC 방법을 평가한다.
  • 지각적 품질과 이해도의 관계를 분석하고 ASV 스푸핑 고려사항과의 연관성을 다룬다.

제안 방법

  • 4명의 소스 화자와 4명의 타깃 화자를 이용한 병렬 데이터로 Hub 작업을 설명하고 16개의 소스–타깃 쌍을 제시한다.
  • 동일한 타깃 화자이지만 서로 다른 소스와 발화를 사용하는 비병렬 데이터로 Spoke 작업을 설명한다.
  • 변환된 음성의 자연스러움과 유사성을 평가하기 위해 대규모 크라우드소싱 청취 테스트를 사용한다.
  • 기준 시스템(스프로켓 및 Merlin)을 제공하고 참가 시스템과 사용된 보코더를 문서화한다.
  • 지각적 결과를 보완하기 위해 변환 음성에 대한 WER(ASR 기반 이해도) 분석을 제시한다.

실험 결과

연구 질문

  • RQ1동일한 평가 프레임워크에서 병렬 VC 시스템과 비병렬 VC 시스템은 어떻게 비교되는가?
  • RQ2WaveNet과 같은 신경 보코더를 포함한 현재 VC 방법으로 달성 가능한 지각적 자연스러움과 화자 유사성 수준은 무엇인가?
  • RQ3VC 출력에서 주관적 품질(MOS)과 객관적 이해도(WER) 사이의 관계는 무엇인가?
  • RQ4VC 제출이 스푸핑 위험을 초래하는가, 그리고 이것이 ASV 대책과 어떤 관련이 있는가?

주요 결과

  • 23개 팀이 Hub 작업 시스템을 제출했고, 그 중 11개 팀은 Spoke 작업에도 참여했다.
  • N10은 타깃 음성에 근접한 최상의 자연스러움과 Hub 및 Spoke 작업에서 높은 유사성을 달성했다.
  • WaveNet 기반 시스템(N10)은 5점 척도에서 약 4.1의 자연스러움과 약 80%의 샘플이 타깃 화자로 판단되었다.
  • Spoke(비병렬) 작업은 전반적으로 Hub보다 자연스러움이 낮았으며 더 큰 작업 난이도를 반영하였고, 일부 시스템은 여전히 합리적인 유사성을 달성했다.
  • MOS(자연스러움)와 WER 사이에 강한 음의 상관관계가 있어, 스펙트럴 왜곡이 지각적 품질과 이해도 모두에 영향을 미친다.
  • 기준 스프로켓 시스템은 일부 동성 케이스에서 경쟁력을 보였으나 이성 간 조건에서는 어려움을 겪었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.