QUICK REVIEW

[논문 리뷰] Neural Speech Synthesis with Transformer Network

Naihan Li, Shujie Liu|arXiv (Cornell University)|2018. 09. 19.

Speech Recognition and Synthesis인용 수 39

한 줄 요약

이 논문은 타코트론2의 순환 신경망(RNN)을 다중 헤드 자기주의 메커니즘으로 대체하여 병렬 학습이 가능하고 장거리 의존성을 더 잘 모델링할 수 있는 트랜스포머 기반 엔드 투 엔드 텍스트 투 스피치(TTS) 모델을 제안한다. 이 모델은 평균 평가 점수(MOS)가 4.39로 인간 수준(4.44)에 매우 가까운 최신 기술 수준의 성능을 달성하였으며, 타코트론2 대비 학습 속도가 4.25배 빨라졌다.

ABSTRACT

Although end-to-end neural text-to-speech (TTS) methods (such as Tacotron2) are proposed and achieve state-of-the-art performance, they still suffer from two problems: 1) low efficiency during training and inference; 2) hard to model long dependency using current recurrent neural networks (RNNs). Inspired by the success of Transformer network in neural machine translation (NMT), in this paper, we introduce and adapt the multi-head attention mechanism to replace the RNN structures and also the original attention mechanism in Tacotron2. With the help of multi-head self-attention, the hidden states in the encoder and decoder are constructed in parallel, which improves the training efficiency. Meanwhile, any two inputs at different times are connected directly by self-attention mechanism, which solves the long range dependency problem effectively. Using phoneme sequences as input, our Transformer TTS network generates mel spectrograms, followed by a WaveNet vocoder to output the final audio results. Experiments are conducted to test the efficiency and performance of our new network. For the efficiency, our Transformer TTS network can speed up the training about 4.25 times faster compared with Tacotron2. For the performance, rigorous human tests show that our proposed model achieves state-of-the-art performance (outperforms Tacotron2 with a gap of 0.048) and is very close to human quality (4.39 vs 4.44 in MOS).

연구 동기 및 목표

타코트론2와 같은 RNN 기반 TTS 모델의 비효율성과 장거리 의존성 제한 문제를 해결하기 위해.
기존 기계 번역을 위해 설계된 트랜스포머 아키텍처를 엔드 투 엔드 텍스트 투 스피치 합성에 적응시키기 위해.
에코더와 디코더의 은닉 상태 계산을 완전히 병렬화함으로써 학습 속도를 향상시키기 위해.
자기주의 메커니즘을 통해 장거리 의존성을 모델링하여 발화의 어조와 음성 품질을 향상시키기 위해.
음소 입력과 웨이브넷 볼루션을 사용하는 완전한 엔드 투 엔드 TTS 시스템을 통해 인간에 가까운 음성 품질을 달성하기 위해.

제안 방법

타코트론2의 RNN 기반 에코더와 디코더를 다중 헤드 자기주의 메커니즘으로 대체하여 은닉 상태 계산을 병렬화할 수 있도록 한다.
에코더와 디코더 양쪽에 다중 헤드 자기주의를 도입하여 순차적 반복 없이 장거리 의존성을 포착한다.
입력으로 음소 시퀀스를 사용하고, 엔드 투 엔드로 멜 스펙트로그램을 생성한 후, 웨이브넷 볼루션을 통해 웨이브폼을 합성한다.
시계열 의존성을 더 잘 모델링하기 위해 상대적 위치 인코딩을 적용한 표준 트랜스포머 아키텍처의 수정 버전을 사용한다.
학습 안정성 향상과 기울기 흐름 개선을 위해 잔차 연결과 레이어 정규화를 적용한다.
멜 스펙트로그램 예측에 대한 크로스 엔트로피 손실을 사용하는 시퀀스 투 시퀀스 프레임워크로 모델을 학습시킨다.

실험 결과

연구 질문

RQ1트랜스포머 아키텍처가 RNN을 효과적으로 대체하여 TTS의 학습 효율성을 향상시킬 수 있는가?
RQ2에코더와 디코더에 다중 헤드 자기주의를 적용하면 음성 시퀀스의 장거리 의존성을 개선할 수 있는가?
RQ3트랜스포머 기반 TTS 모델이 타코트론2 대비 인간에 가까운 음성 품질을 달성할 수 있는가?
RQ4제안된 모델의 학습 속도는 타코트론2와 비교해 어떻게 되는가?
RQ5층 수와 헤드 수와 같은 하이퍼파라미터 중에서 모델 성능과 안정성에 가장 큰 영향을 미치는 것은 무엇인가?

주요 결과

제안된 트랜스포머 TTS 모델은 평균 평가 점수(MOS)가 4.39로 인간 기준 품질(4.44)에 매우 가까운 성능을 달성하였다.
CMOS 기준으로 타코트론2 대비 0.048 향상되어 최신 기술 수준의 성능을 입증하였다.
은닉 상태 계산을 완전히 병렬화함으로써 타코트론2 대비 학습 속도가 4.25배 빨라졌다.
층 수를 늘리면(예: 3층에서 6층으로) 멜 스펙트로그램의 고주파 영역 모델링이 향상되고 음성 품질이 향상됨을 확인하였다.
배치 크기는 특히 더 깊은 모델에서 학습 안정성에 중요한 요소로 나타났다.
자기주의를 통해 어떤 두 시간 단위 사이의 직접적 주의를 허용함으로써 장거리 의존성 문제를 성공적으로 완화하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.