QUICK REVIEW

[논문 리뷰] Non-Autoregressive Neural Text-to-Speech

Kainan Peng, Wei Ping|arXiv (Cornell University)|2019. 05. 21.

Speech Recognition and Synthesis인용 수 26

한 줄 요약

이 논문은 텍스트를 메르 스펙트로그램으로 변환하는 데 단일 피드포워드 프로세스로 46.7배 빠른 합성 속도를 달성하면서도 합리적인 음성 품질을 유지하는 비자기적, 전연결형 시퀀스-투-시퀀스 모델인 ParaNet을 제안한다. 자동차 모델(예: Deep Voice 3)과 비교해 46.7배 빠른 합성 속도를 달성했으며, 자동차 교사 모델로부터 지식 정복을 통해 반복적이고 계층적인 어텐션 개선을 통해 정렬 안정성을 향상시킨다.

ABSTRACT

In this work, we propose ParaNet, a non-autoregressive seq2seq model that converts text to spectrogram. It is fully convolutional and brings 46.7 times speed-up over the lightweight Deep Voice 3 at synthesis, while obtaining reasonably good speech quality. ParaNet also produces stable alignment between text and speech on the challenging test sentences by iteratively improving the attention in a layer-by-layer manner. Furthermore, we build the parallel text-to-speech system and test various parallel neural vocoders, which can synthesize speech from text through a single feed-forward pass. We also explore a novel VAE-based approach to train the inverse autoregressive flow (IAF) based parallel vocoder from scratch, which avoids the need for distillation from a separately trained WaveNet as previous work.

연구 동기 및 목표

자기적 생성의 지연 문제를 제거하는 비자기적 텍스트-to-음성 모델을 개발하는 것.
자기적 TTS 시스템에서 추론 중에 흔히 발생하는 어텐션 오류 문제를 해결하는 것. 이는 교사-강제 훈련과 자기적 디코딩 간의 괴리에서 기인한다.
비자기적 텍스트-to-스펙트로그램 모델과 병렬 신경 음원 생성기(네트워크)를 조합하여 완전히 병렬 처리 가능한 TTS 파이프라인을 구축하는 것.
기존 WaveNet 모델에서의 정복 없이 VAE 기반 접근법을 사용해 역자기 흐름(IAF) 음원 생성기를 처음부터 훈련시키는 것의 탐색

제안 방법

텍스트에서 메르 스펙트로그램을 단일 전방전파로 생성하는 비자기적, 전연결형 인코더-디코더 아키텍처인 ParaNet을 제안한다.
자기적 교사 모델(예: Deep Voice 3)로부터 지식 정복을 통해 어텐션 분포를 초기화하여 추론 중 안정적인 정렬을 가능하게 한다.
각 디코더 레이어가 반복적으로 어텐션 정렬을 향상시키는 계층적 개선 메커니즘을 도입함으로써, 자기적 순차성 없이 오류를 감소시킨다.
ParaNet을 WaveGlow와 같은 병렬 신경 음원 생성기, 그리고 끝내기로 훈련된 새로운 WaveVAE 기반 IAF 음원 생성기와 결합한다.
정복 없이도 전체 파이프라인을 끝내기로 훈련시킬 수 있도록 VAE 프레임워크를 사용해 IAF 음원 생성기를 훈련시킨다.
비자기 설정에서 시퀀스 모델링과 정렬 학습을 향상시키기 위해 자기 어텐션 블록에 위치 인코딩을 적용한다.

실험 결과

연구 질문

RQ1비자기적 시퀀스-투-시퀀스 모델은 자기적 추론의 병목 문제를 제거하면서도 높은 품질의 음성 합성을 달성할 수 있는가?
RQ2비자기 모델에서 반복적이고 계층적인 어텐션 개선은 자기적 모델(마스크 여부에 관계없이)에 비해 어텐션 오류를 줄이는가?
RQ3자기적 음원 생성기를 정복 없이 처음부터 훈련시킬 수 있으며, 품질과 내구성 측면에서 어떻게 비교되는가?
RQ4지식 정복과 위치 인코딩은 비자기 TTS 모델의 성능과 안정성에 어떤 영향을 미치는가?
RQ5제안된 ParaNet의 합성 속도는 Deep Voice 3와 FastSpeech와 같은 자기적 모델과 비교해 어떻게 되는가?

주요 결과

ParaNet은 1080 Ti GPU에서 실시간 기준 254.6배의 추론 속도 향상을 달성했으며, 자기적 Deep Voice 3와 비교해 46.7배 빠른 속도를 기록했다. 평균 추론 지연은 6.11초 분량의 발화에 대해 0.024초였다.
자기적 Deep Voice 3와 비교해 도전적인 100문장 테스트 세트에서 어텐션 오류를 37개에서 12개로 감소시켰다. 이는 자기적 순차성의 결여로 인해 훈련-추론 괴리가 발생하지 않기 때문이다.
어텐션 마스크를 적용한 경우에도 ParaNet은 Deep Voice 3를 능가했으며, 어텐션 오류는 각각 6개와 8개로 나타나, 높은 내구성과 안정성을 입증했다.
제거 실험 결과, 지식 정복과 위치 인코딩이 모두 필수적임을 확인했다. 둘 중 하나를 제거하면 말이 들리지 않거나 어텐션 이미지가 흐려지는 현상이 발생했다.
ParaNet의 디코더 레이어 수를 늘릴수록 어텐션 오류가 감소했으며, 17개 레이어가 분석된 구성 중에서 가장 우수한 성능을 보였다.
WaveVAE 기반 IAF 음원 생성기는 정복 없이도 끝내기 훈련이 가능하며 경쟁력 있는 성능을 보였지만, 비자기 프론트엔드와 조합했을 때 일반적으로 WaveNet보다 내구성이 떨어지는 경향이 있었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.