QUICK REVIEW

[논문 리뷰] Non-Attentive Tacotron: Robust and Controllable Neural TTS Synthesis Including Unsupervised Duration Modeling

Jonathan Shen, Jia Ye|arXiv (Cornell University)|2020. 10. 08.

Neural Networks and Applications참고 문헌 52인용 수 73

한 줄 요약

이 논문은 Tacotron 2의 어텐션을 명시적 지속 시간 예측기와 Gaussian upsampling으로 교체하여 감독, 준감독, 또는 비감독 지속 시간 모델링으로 견고하고 제어 가능한 TTS를 가능하게 한다.

ABSTRACT

This paper presents Non-Attentive Tacotron based on the Tacotron 2 text-to-speech model, replacing the attention mechanism with an explicit duration predictor. This improves robustness significantly as measured by unaligned duration ratio and word deletion rate, two metrics introduced in this paper for large-scale robustness evaluation using a pre-trained speech recognition model. With the use of Gaussian upsampling, Non-Attentive Tacotron achieves a 5-scale mean opinion score for naturalness of 4.41, slightly outperforming Tacotron 2. The duration predictor enables both utterance-wide and per-phoneme control of duration at inference time. When accurate target durations are scarce or unavailable in the training data, we propose a method using a fine-grained variational auto-encoder to train the duration predictor in a semi-supervised or unsupervised manner, with results almost as good as supervised training.

연구 동기 및 목표

Attention 기반 신경망 TTS의 강건성 이슈를 제시하고 반복 또는 긴 정지 같은 실패 위험을 줄인다.
Attention 대신 지속 시간 예측기와 Gaussian upsampling을 사용하는 Non-Attentive Tacotron (NAT)을 도입한다.
FVAE 기반 정렬을 통해 감독, 준감독 또는 비감독 지속 시간 정보를 활용하여 학습을 가능하게 한다.
추론 시 발화 전체의 속도 조절 및 음소별 지속 시간 제어를 품질 저하 없이 가능하게 한다.
대규모 강건성 평가를 위한 강건한 자동 평가 지표(U DR 및 WDR)를 제시한다.

제안 방법

Tacotron 2 어텐션을 지속 시간 예측기와 Gaussian upsampling으로 대체하여 인코더 출력을 상향 샘플링한다.
토큰별 지속 시간 d와 Gaussian upsampling용 범위 매개변수 sigma를 예측한다.
토큰 구간 중심의 Gaussian 혼합체를 통해 인코더 출력을 업샘플링하여 디코더에 정렬된 입력을 형성한다.
mel-spectrogram 재구성 손실과 지속 시간 예측 손실(L_spec 및 L_dur)을 결합한 손실로 학습한다.
목표 스펙트로그램에서 토큰 정렬 잠재특징을 추출하는 FVAE를 사용하여 감독/준감독/비감독 지속 시간 모델링을 지원한다.
추론 시 예측된 지속 시간을 조작하여 발화 전체 속도와 음소별 타이밍을 제어한다.

실험 결과

연구 질문

RQ1명시적 지속 시간 모델링이 지속 시간 예측기와 Gaussian upsampling을 통한 강화된 TTS 강건성을 가져오는가?
RQ2비감독 또는 준감독 지속 시간 모델링이 자연스러움과 강건성 측면에서 완전 감독 학습과 비교하여 어떤 차이가 있는가?
RQ3NAT가 발화 전체 및 음소 단위 수준에서 품질 저하 없이 제어 가능한 속도 조절을 어느 정도 제공하는가?
RQ4MOS를 넘어서는 대규모 TTS 강건성 평가를 위한 효과적인 지표는 무엇이며(U DR 및 WDR 등)?

주요 결과

Model	LibriTTS UDR (%)	LibriTTS WDR (%)	web-long UDR (%)	web-long WDR (%)
Tacotron 2 w/ LSA	16.96	0.4	46.04	4.4
Tacotron 2 w/ GMMA	3.812	0.1	6.157	1.3
Non-Attentive Tacotron Supervised	0.005	0.1	0.011	1.0
Non-Attentive Tacotron Semi-supervised	0.034	0.3	0.035	1.7
Non-Attentive Tacotron Unsupervised	0.181	0.4	0.291	1.9

Gaussian upsampling이 Tacotron 2의 GMMA에서의 자연스러움 수준(MOS 테스트 기준)과 동등한 수준을 달성한다.
Gaussian upsampling은 일반 업샘플링 및 어텐션 기반 대조군에 비해 강건성을 크게 향상시킨다.
감독 NAT는 매우 높은 강건성(U DR/WDR 낮음)을 보여주며 기준에 근접한 MOS를 기록한다.
FVAE 접근법을 활용한 준감독/비감독 지속 시간 모델링은 자연스러움과 강건성의 상당 부분을 유지하면서도 FVAE가 없는 비감독 방법보다 우수하다.
오토리그레시브 디코더는 고품질 합성에 여전히 중요하며, 비오토리그레시브 디코더는 NAT의 자연스러움에 못 미친다.
NAT는 추론 시 발화 전체 및 세밀한 속도 조절을 가능하게 하며 감독 설정에서 품질 저하 없이 이를 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.