[논문 리뷰] Non-Autoregressive Neural Text-to-Speech
이 논문은 텍스트를 메르 스펙트로그램으로 변환하는 데 단일 피드포워드 프로세스로 46.7배 빠른 합성 속도를 달성하면서도 합리적인 음성 품질을 유지하는 비자기적, 전연결형 시퀀스-투-시퀀스 모델인 ParaNet을 제안한다. 자동차 모델(예: Deep Voice 3)과 비교해 46.7배 빠른 합성 속도를 달성했으며, 자동차 교사 모델로부터 지식 정복을 통해 반복적이고 계층적인 어텐션 개선을 통해 정렬 안정성을 향상시킨다.
In this work, we propose ParaNet, a non-autoregressive seq2seq model that converts text to spectrogram. It is fully convolutional and brings 46.7 times speed-up over the lightweight Deep Voice 3 at synthesis, while obtaining reasonably good speech quality. ParaNet also produces stable alignment between text and speech on the challenging test sentences by iteratively improving the attention in a layer-by-layer manner. Furthermore, we build the parallel text-to-speech system and test various parallel neural vocoders, which can synthesize speech from text through a single feed-forward pass. We also explore a novel VAE-based approach to train the inverse autoregressive flow (IAF) based parallel vocoder from scratch, which avoids the need for distillation from a separately trained WaveNet as previous work.
연구 동기 및 목표
- 자기적 생성의 지연 문제를 제거하는 비자기적 텍스트-to-음성 모델을 개발하는 것.
- 자기적 TTS 시스템에서 추론 중에 흔히 발생하는 어텐션 오류 문제를 해결하는 것. 이는 교사-강제 훈련과 자기적 디코딩 간의 괴리에서 기인한다.
- 비자기적 텍스트-to-스펙트로그램 모델과 병렬 신경 음원 생성기(네트워크)를 조합하여 완전히 병렬 처리 가능한 TTS 파이프라인을 구축하는 것.
- 기존 WaveNet 모델에서의 정복 없이 VAE 기반 접근법을 사용해 역자기 흐름(IAF) 음원 생성기를 처음부터 훈련시키는 것의 탐색
제안 방법
- 텍스트에서 메르 스펙트로그램을 단일 전방전파로 생성하는 비자기적, 전연결형 인코더-디코더 아키텍처인 ParaNet을 제안한다.
- 자기적 교사 모델(예: Deep Voice 3)로부터 지식 정복을 통해 어텐션 분포를 초기화하여 추론 중 안정적인 정렬을 가능하게 한다.
- 각 디코더 레이어가 반복적으로 어텐션 정렬을 향상시키는 계층적 개선 메커니즘을 도입함으로써, 자기적 순차성 없이 오류를 감소시킨다.
- ParaNet을 WaveGlow와 같은 병렬 신경 음원 생성기, 그리고 끝내기로 훈련된 새로운 WaveVAE 기반 IAF 음원 생성기와 결합한다.
- 정복 없이도 전체 파이프라인을 끝내기로 훈련시킬 수 있도록 VAE 프레임워크를 사용해 IAF 음원 생성기를 훈련시킨다.
- 비자기 설정에서 시퀀스 모델링과 정렬 학습을 향상시키기 위해 자기 어텐션 블록에 위치 인코딩을 적용한다.
실험 결과
연구 질문
- RQ1비자기적 시퀀스-투-시퀀스 모델은 자기적 추론의 병목 문제를 제거하면서도 높은 품질의 음성 합성을 달성할 수 있는가?
- RQ2비자기 모델에서 반복적이고 계층적인 어텐션 개선은 자기적 모델(마스크 여부에 관계없이)에 비해 어텐션 오류를 줄이는가?
- RQ3자기적 음원 생성기를 정복 없이 처음부터 훈련시킬 수 있으며, 품질과 내구성 측면에서 어떻게 비교되는가?
- RQ4지식 정복과 위치 인코딩은 비자기 TTS 모델의 성능과 안정성에 어떤 영향을 미치는가?
- RQ5제안된 ParaNet의 합성 속도는 Deep Voice 3와 FastSpeech와 같은 자기적 모델과 비교해 어떻게 되는가?
주요 결과
- ParaNet은 1080 Ti GPU에서 실시간 기준 254.6배의 추론 속도 향상을 달성했으며, 자기적 Deep Voice 3와 비교해 46.7배 빠른 속도를 기록했다. 평균 추론 지연은 6.11초 분량의 발화에 대해 0.024초였다.
- 자기적 Deep Voice 3와 비교해 도전적인 100문장 테스트 세트에서 어텐션 오류를 37개에서 12개로 감소시켰다. 이는 자기적 순차성의 결여로 인해 훈련-추론 괴리가 발생하지 않기 때문이다.
- 어텐션 마스크를 적용한 경우에도 ParaNet은 Deep Voice 3를 능가했으며, 어텐션 오류는 각각 6개와 8개로 나타나, 높은 내구성과 안정성을 입증했다.
- 제거 실험 결과, 지식 정복과 위치 인코딩이 모두 필수적임을 확인했다. 둘 중 하나를 제거하면 말이 들리지 않거나 어텐션 이미지가 흐려지는 현상이 발생했다.
- ParaNet의 디코더 레이어 수를 늘릴수록 어텐션 오류가 감소했으며, 17개 레이어가 분석된 구성 중에서 가장 우수한 성능을 보였다.
- WaveVAE 기반 IAF 음원 생성기는 정복 없이도 끝내기 훈련이 가능하며 경쟁력 있는 성능을 보였지만, 비자기 프론트엔드와 조합했을 때 일반적으로 WaveNet보다 내구성이 떨어지는 경향이 있었다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.