QUICK REVIEW

[논문 리뷰] AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss

Kaizhi Qian, Yang Zhang|arXiv (Cornell University)|2019. 05. 14.

Speech Recognition and Synthesis참고 문헌 32인용 수 195

한 줄 요약

AutoVC는 자기 재구성만으로 학습된 병목 구조의 자동인코더를 사용한 제로샷 음성 스타일 변환을 수행하여, 비병렬의 다대다 음성 변환을 가능하게 한다.

ABSTRACT

Non-parallel many-to-many voice conversion, as well as zero-shot voice conversion, remain under-explored areas. Deep style transfer algorithms, such as generative adversarial networks (GAN) and conditional variational autoencoder (CVAE), are being applied as new solutions in this field. However, GAN training is sophisticated and difficult, and there is no strong evidence that its generated speech is of good perceptual quality. On the other hand, CVAE training is simple but does not come with the distribution-matching property of a GAN. In this paper, we propose a new style transfer scheme that involves only an autoencoder with a carefully designed bottleneck. We formally show that this scheme can achieve distribution-matching style transfer by training only on a self-reconstruction loss. Based on this scheme, we proposed AUTOVC, which achieves state-of-the-art results in many-to-many voice conversion with non-parallel data, and which is the first to perform zero-shot voice conversion.

연구 동기 및 목표

병렬 데이터 없이 비병렬의 다대다 음성 변환을 목표로 한다.
대상 분포를 맞추는 간단한 autoencoder 기반 스타일 전송을 개발한다.
사전 학습된 화자 임베딩을 사용해 보지 못한 화자에 대한 제로샷 변환을 가능하게 한다.
신중하게 설계된 병목을 통해 콘텐츠와 화자 정보를 분리한다.
자동인코더가 분포 매칭을 달성한다는 이론적 근거를 제공한다.

제안 방법

콘텐츠 인코더, 화자 인코더, 디코더의 3-모듈 프레임워크를 제안한다.
자기 재구성 손실과 콘텐츠 일관성 손실을 사용하여 분리를 강제하도록 학습한다.
콘텐츠와 화자 정보를 분리하기 위해 시간적 다운샘플링과 채널 축소를 통한 신중하게 설계된 병목을 사용한다.
GE2E 손실로 화자 인코더를 사전 학습하여 제로샷 변환을 위한 미지의 화자 임베딩을 가능하게 한다.
스펙트로그램 기반 자동인코더와 포스트넷으로 스펙트로그램 세부 정보를 다듬으면서 디코딩한다.
변환된 스펙트로그램으로부터 최종 파형을 합성하기 위해 WaveNet 보코더를 도입한다.

실험 결과

연구 질문

RQ1자동인코더가 자기 재구성으로만 학습되었을 때 음성 변환에 대해 분포 매칭 스타일 전송을 달성할 수 있는가?
RQ2병목을 조정하여 콘텐츠로부터 화자 정보를 분리해 제로샷 변환을 가능하게 할 수 있는가?
RQ3제안된 AutoVC 프레임워크가 비병렬의 다대다 음성 변환에서, 보이지 않는 화자 포함해 성능이 우수하게 작동하는가?
RQ4사전 학습된 화자 임베딩이 병렬 데이터 없이 제로샷 변환을 지원하기에 충분한가?

주요 결과

AutoVC는 보이는 화자를 가진 전통적인 비병렬 다대다 음성 변환에서 최첨단 성능을 달성한다.
AutoVC는 보이지 않는 화자( unseen speakers )를 사용한 제로샷 음성 변환을 양호한 성능으로 가능하게 한다.
AutoVC의 주관적 MOS 점수는 대조군 비병렬 방법을 능가하고 병렬/변환 품질에 근접한다.
잘 조정된 병목은 재구성 품질과 화자 분리를 균형 있게 달성하여 효과적인 변환을 가능하게 한다.
AutoVC-one-hot 실험은 화자 임베딩이 이익에 기여하는 바가 병목 설계보다 작음을 시사한다.
Table 1은 좁은, AutoVC, 넓은 병목 간 재구성 품질과 분리 간의 트레이드오프를 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.