QUICK REVIEW

[논문 리뷰] The Voice Conversion Challenge 2018: Promoting Development of Parallel and Nonparallel Methods

Jaime Lorenzo-Trueba, Junichi Yamagishi|arXiv (Cornell University)|2018. 04. 12.

Speech Recognition and Synthesis참고 문헌 3인용 수 66

한 줄 요약

논문은 VCC 2018을 제시하며 Hub(병렬)와 Spoke(비병렬) 음성 변환 작업, 거대 크라우드소싱 지각 평가, 전통적 및 신경 VC 접근 방식 분석을 도입하며, N10이 자연스러움과 유사성에서 최우수 성능을 보임.

ABSTRACT

We present the Voice Conversion Challenge 2018, designed as a follow up to the 2016 edition with the aim of providing a common framework for evaluating and comparing different state-of-the-art voice conversion (VC) systems. The objective of the challenge was to perform speaker conversion (i.e. transform the vocal identity) of a source speaker to a target speaker while maintaining linguistic information. As an update to the previous challenge, we considered both parallel and non-parallel data to form the Hub and Spoke tasks, respectively. A total of 23 teams from around the world submitted their systems, 11 of them additionally participated in the optional Spoke task. A large-scale crowdsourced perceptual evaluation was then carried out to rate the submitted converted speech in terms of naturalness and similarity to the target speaker identity. In this paper, we present a brief summary of the state-of-the-art techniques for VC, followed by a detailed explanation of the challenge tasks and the results that were obtained.

연구 동기 및 목표

최첨단 음성 변환 시스템을 평가하고 비교하기 위한 공통 프레임워크를 제공한다.
일관된 청취 평가 하에서 병렬 및 비병렬 VC 방법을 평가한다.
지각적 품질과 이해도의 관계를 분석하고 ASV 스푸핑 고려사항과의 연관성을 다룬다.

제안 방법

4명의 소스 화자와 4명의 타깃 화자를 이용한 병렬 데이터로 Hub 작업을 설명하고 16개의 소스–타깃 쌍을 제시한다.
동일한 타깃 화자이지만 서로 다른 소스와 발화를 사용하는 비병렬 데이터로 Spoke 작업을 설명한다.
변환된 음성의 자연스러움과 유사성을 평가하기 위해 대규모 크라우드소싱 청취 테스트를 사용한다.
기준 시스템(스프로켓 및 Merlin)을 제공하고 참가 시스템과 사용된 보코더를 문서화한다.
지각적 결과를 보완하기 위해 변환 음성에 대한 WER(ASR 기반 이해도) 분석을 제시한다.

실험 결과

연구 질문

RQ1동일한 평가 프레임워크에서 병렬 VC 시스템과 비병렬 VC 시스템은 어떻게 비교되는가?
RQ2WaveNet과 같은 신경 보코더를 포함한 현재 VC 방법으로 달성 가능한 지각적 자연스러움과 화자 유사성 수준은 무엇인가?
RQ3VC 출력에서 주관적 품질(MOS)과 객관적 이해도(WER) 사이의 관계는 무엇인가?
RQ4VC 제출이 스푸핑 위험을 초래하는가, 그리고 이것이 ASV 대책과 어떤 관련이 있는가?

주요 결과

23개 팀이 Hub 작업 시스템을 제출했고, 그 중 11개 팀은 Spoke 작업에도 참여했다.
N10은 타깃 음성에 근접한 최상의 자연스러움과 Hub 및 Spoke 작업에서 높은 유사성을 달성했다.
WaveNet 기반 시스템(N10)은 5점 척도에서 약 4.1의 자연스러움과 약 80%의 샘플이 타깃 화자로 판단되었다.
Spoke(비병렬) 작업은 전반적으로 Hub보다 자연스러움이 낮았으며 더 큰 작업 난이도를 반영하였고, 일부 시스템은 여전히 합리적인 유사성을 달성했다.
MOS(자연스러움)와 WER 사이에 강한 음의 상관관계가 있어, 스펙트럴 왜곡이 지각적 품질과 이해도 모두에 영향을 미친다.
기준 스프로켓 시스템은 일부 동성 케이스에서 경쟁력을 보였으나 이성 간 조건에서는 어려움을 겪었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.