QUICK REVIEW

[논문 리뷰] Deep Voice 2: Multi-Speaker Neural Text-to-Speech

Sercan Ö. Arık, Gregory Diamos|arXiv (Cornell University)|2017. 05. 24.

Speech Recognition and Synthesis참고 문헌 23인용 수 212

한 줄 요약

학습 가능한 저차원 화자 임베딩을 도입하여 공유 모델 내 다중 화자 음성합성(TTS)을 가능하게 하고 단일 화자 기준선을 향상시키며 Deep Voice 2와 Tacotron, WaveNet 보코더를 사용하여 수백 명의 화자에서 고품질의 구별 가능한 음성을 달성한다.

ABSTRACT

We introduce a technique for augmenting neural text-to-speech (TTS) with lowdimensional trainable speaker embeddings to generate different voices from a single model. As a starting point, we show improvements over the two state-ofthe-art approaches for single-speaker neural TTS: Deep Voice 1 and Tacotron. We introduce Deep Voice 2, which is based on a similar pipeline with Deep Voice 1, but constructed with higher performance building blocks and demonstrates a significant audio quality improvement over Deep Voice 1. We improve Tacotron by introducing a post-processing neural vocoder, and demonstrate a significant audio quality improvement. We then demonstrate our technique for multi-speaker speech synthesis for both Deep Voice 2 and Tacotron on two multi-speaker TTS datasets. We show that a single neural TTS system can learn hundreds of unique voices from less than half an hour of data per speaker, while achieving high audio quality synthesis and preserving the speaker identities almost perfectly.

연구 동기 및 목표

신경 TTS 모델이 각 화자별 데이터를 덜 필요로 하면서도 단일 모델 내에서 여러 화자 음성을 학습할 수 있음을 입증한다.
이전 Deep Voice 1 및 Tacotron 기준선보다 단일 화자 TTS 품질을 향상시킨다.
학습 가능한 화자 임베딩이 서로 다른 모델 구성 요소를 조건화하여 구별되는 음성을 생성할 수 있음을 보인다.
Deep Voice 2와 Tacotron을 다중 화자 설정으로 확장하고 음성 구별성 및 품질을 평가한다.

제안 방법

Deep Voice 2를 Deep Voice 1을 기반으로 분절, 지속시간, 주파수 및 음성 모델 측면에서 개선한다.
Tacotron을 Griffin-Lim 대신 WaveNet 기반의 스펙트로그램-대-오디오 보코더로 교체한다.
저차원 학습 가능한 화자 임베딩을 모델의 여러 지점(초기화, 입력, 게이팅)에 도입하여 다중 화자 합성을 달성한다.
분절, 지속시간, 주파수 및 보코더 경로에 화자 임베딩을 사이트별로 적용하고 순환 초기화 및 입력 보강과 같은 전략을 사용한다.
Tacotron의 경우 인코더를 화자 임베딩으로 조건화하고 스펙트로그램-대-오디오 변환에 WaveNet 보코더를 사용한다.

실험 결과

연구 질문

RQ1저차원 화자 임베딩을 사용하여 단일 신경 TTS 모델이 수백 명의 화자의 고품질 음성을 생성할 수 있는가?
RQ2VCTK 및 오디오북과 같은 데이터셋에서 다중 화자 학습이 가져오는 데이터 효율성 및 품질 간의trade-off는 무엇인가?
RQ3화자 임베딩이 분절, 지속시간, 주파수 및 보코더 경로에 미치는 영향은 화자 신원을 보존하는 데 어떤 도움이 되는가?
RQ4Griffin-Lim을 WaveNet 보코더로 교체하는 것이 단일- 및 다중 화자 TTS의 지각적 음질을 향상시키는가?
RQ5다양한 화자에 걸쳐 합성된 음성이 실제와 비교해 얼마나 구별 가능한가?

주요 결과

Deep Voice 2는 단일 화자 MOS 평가에서 Deep Voice 1보다 성능이 우수하여 품질이 크게 향상되었다.
WaveNet 보코더를 사용하는 Tacotron은 Griffin-Lim보다 MOS가 높아 음질이 향상되었다.
하나의 모델이 화자당 데이터가 절반 미만으로도 수백 개의 고유한 음성을 학습하면서도 높은 품질과 화자 구별성을 유지할 수 있다.
다중 화자 Deep Voice 2와 다중 화자 Tacotron은 여러 데이터셋에서 MOS 값과 화자 구분 정확도가 실제(ground truth)에 근접한다.
VCTK에서 40층 WaveNet을 사용하는 Deep Voice 2는 MOS 3.21 ± 0.13, 화자 정확도 100.0%를 달성했고, 80층 WaveNet일 때 MOS 3.53 ± 0.12, 정확도 99.9%를 달성했다; 실제 데이터의 MOS는 각각 4.65 ± 0.06 및 99.7%의 정확도이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.