QUICK REVIEW

[논문 리뷰] Deep Voice 3: Scaling Text-to-Speech with Convolutional Sequence Learning

Wei Ping, Kainan Peng|arXiv (Cornell University)|2017. 10. 20.

Speech Recognition and Synthesis인용 수 264

한 줄 요약

Deep Voice 3 is a fully convolutional, attention-based TTS system that trains much faster, scales to large multi-speaker datasets, and supports multiple vocoders while mitigating attention errors for production-ready throughput.

ABSTRACT

We present Deep Voice 3, a fully-convolutional attention-based neural text-to-speech (TTS) system. Deep Voice 3 matches state-of-the-art neural speech synthesis systems in naturalness while training ten times faster. We scale Deep Voice 3 to data set sizes unprecedented for TTS, training on more than eight hundred hours of audio from over two thousand speakers. In addition, we identify common error modes of attention-based speech synthesis networks, demonstrate how to mitigate them, and compare several different waveform synthesis methods. We also describe how to scale inference to ten million queries per day on one single-GPU server.

연구 동기 및 목표

완전 컨볼루션 시퀀스-투-시퀀스 TTS 모델을 개발하여 빠른 학습과 확장 가능한 다중 화자 합성을 가능하게 한다.
신경망 TTS에서 일반적인 주의 실패 모드를 완화하여 충실도와 신뢰성을 높인다.
자연스러움 및 배포 효율성에 대한 서로 다른 음향 파형 합성 방법의 영향 평가.
단일 GPU 서버에서의 생산 준비된 추론 처리량을 보여주어 고트래픽 배포에 적합함을 입증한다.

제안 방법

텍스트-스펙트로그램 변환 및 보코더 매개변수 예측을 위한 완전 컨볼루션 인코더–디코더–컨버터 아키텍처를 제안한다.
모든 주의가 단조롭게 작동하도록 위치 인코딩을 사용하는 다중 히프의 컨볼루셔널 주의 기법을 활용한다.
발음을 개선하고 주의 오류를 줄이기 위해 문자 및 음소 표현의 결합을 도입한다.
멜-스펙트로그램 예측(디코더)과 보코더 매개변수 예측(컨버터)을 결합한 다중 작업 손실로 학습한다.
Griffin-Lim, WORLD, WaveNet 보코더를 사용하여 단일 화자 및 다중 화자 데이터셋에서 평가한다.

실험 결과

연구 질문

RQ1완전 컨볼루션 기반 주의 기반 TTS 모델이 학습 속도를 크게 높이면서도 최첨단 자연스러움을 달성할 수 있는가?
RQ2모델이 대형 다중 화자 데이터셋(LibriSpeech, VCTK) 및 다양한 악센트에 얼마나 잘 확장되는가?
RQ3생산 준비된 TTS에서 주의 오류(반복, 발음 오류, 건너뛰기)를 완화하기 위한 효과적인 전략은 무엇인가?
RQ4다른 음향 파형 합성 방법이 자연스러움과 배포 처리량에 어떤 영향을 미치는가?

주요 결과

학습 속도는 비교적 순환 아키텍처에 비해 대폭 빨라진다(예: 한 GPU에서의 각 이터레이션 0.06초 대 Tacotron의 0.59초).
모델은 LibriSpeech(820시간, 2484명 화자)와 VCTK(44시간, 108명 화자)에서 경쟁력 있는 자연스러움으로 확장된다.
문자–음소의 공동 표현과 추론 시 단조로운 주의로 주의 오류가 크게 감소되며, 몇 가지 구성에서 반복/발음 오류/건너뛰기가 현저히 줄어든다.
단일 화자 데이터에서 MOS는 보코더에 따라 달라진다: Griffin-Lim 3.62, WORLD 3.63, WaveNet 3.78(높을수록 좋음); Tacotron(WaveNet) 3.78; Deep Voice 2(WaveNet) 2.74.
다중 화자 MOS: Griffin-Lim 3.01(VCTK), WORLD 3.44(VCTK), Griffin-Lim 2.37(LibriSpeech), WORLD 2.89(LibriSpeech); 정답 4.69(VCTK), 4.51(LibriSpeech).
처리량 목표은 단일 GPU 서버에서 커스텀 커널과 병렬 WORLD 추론으로 하루에 1000만 질의에 달한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.