[논문 리뷰] Close to Human Quality TTS with Transformer
이 논문은 타코트론2의 RNN과 어텐션 메커니즘을 다중 헤드 자기어텐션으로 대체한 트랜스포머 기반 TTS 모델을 제안한다. 이로 인해 훈련 속도가 4.25배 빨라지고 장거리 의존성 모델링이 향상된다. 인간 평가 결과, 인간 수준에 가까운 품질을 달성하였으며, 타코트론2의 4.34와 인간 기준인 4.44에 비해 MOS 4.39를 기록하였다.
Although end-to-end neural text-to-speech (TTS) methods (such as Tacotron2) are proposed and achieve state-of-the-art performance, they still suffer from two problems: 1) low efficiency during training and inference; 2) hard to model long dependency using current recurrent neural networks (RNNs). Inspired by the success of Transformer network in neural machine translation (NMT), in this paper, we introduce and adapt the multi-head attention mechanism to replace the RNN structures and also the original attention mechanism in Tacotron2. With the help of multi-head self-attention, the hidden states in the encoder and decoder are constructed in parallel, which improves the training efficiency. Meanwhile, any two inputs at different times are connected directly by self-attention mechanism, which solves the long range dependency problem effectively. Using phoneme sequences as input, our Transformer TTS network generates mel spectrograms, followed by a WaveNet vocoder to output the final audio results. Experiments are conducted to test the efficiency and performance of our new network. For the efficiency, our Transformer TTS network can speed up the training about 4.25 times faster compared with Tacotron2. For the performance, rigorous human tests show that our proposed model achieves state-of-the-art performance (outperforms Tacotron2 with a gap of 0.048) and is very close to human quality (4.39 vs 4.44 in MOS).
연구 동기 및 목표
- 타코트론2와 같은 엔드 투 엔드 TTS 모델의 낮은 훈련 및 추론 효율성 문제를 해결하기 위해.
- 순차적 TTS 데이터에서 장거리 의존성을 모델링하는 데에 제한이 있는 RNN의 한계를 극복하기 위해.
- 에코더와 디코더에서 RNN과 원래 어텐션 메커니즘을 다중 헤드 자기어텐션으로 대체하여 음성 품질을 향상시키기 위해.
- 텍스트에서 음성으로의 합성에서 최신 기술 수준의 성능을 달성하여 인간 수준의 품질에 가까워지기 위해.
제안 방법
- 타코트론2의 RNN 기반 에코더와 디코더를 다중 헤드 자기어텐션을 사용하는 트랜스포머 에코더 및 디코더 블록으로 대체한다.
- 다중 헤드 자기어텐션을 사용해 병렬로 문맥 표현을 계산함으로써 순차적 반복을 제거하고 훈련 속도를 향상시킨다.
- 모든 시간 단계 간의 직접적인 어텐션 연결을 통해 장거리 의존성을 효과적으로 모델링할 수 있도록 한다.
- 입력으로 음소 시퀀스를 사용하고 멜 스펙트로그램을 생성한 후, WaveNet 보코다를 사용해 원시 오디오로 변환한다.
- 자기회귀적 생성을 위해 위치 인코딩과 어텐션 메커니즘의 수정을 통해 트랜스포머 아키텍처를 TTS 작업에 적응시킨다.
- 멜 스펙트로그램 예측에 대해 L1 및 L2 손실의 조합을 사용해 모델을 엔드 투 엔드로 훈련시킨다.
실험 결과
연구 질문
- RQ1TTS에서 RNN을 자기어텐션으로 대체하면 성능을 유지하면서도 훈련 효율성을 향상시킬 수 있는가?
- RQ2자기어텐션은 RNN에 비해 TTS 시퀀스에서 장거리 의존성을 얼마나 잘 모델링하는가?
- RQ3트랜스포머 기반 TTS 모델은 주관적 인간 평가에서 인간 수준에 가까운 품질을 달성하는가?
- RQ4타코트론2에 비해 MOS(Mean Opinion Score)에서 얼마나 향상되었는가?
- RQ5훈련 과정은 타코트론2에 비해 얼마나 더 빠른가?
주요 결과
- 제안된 트랜스포머 TTS 모델은 타코트론2 대비 훈련 속도가 4.25배 빨라졌다.
- 모델은 인간 평가에서 평균 의견 점수(MOS) 4.39를 기록하여 타코트론2를 초월했다.
- MOS 4.39는 인간 기준 점수인 4.44와 매우 가까워 거의 인간 수준의 품질을 의미한다.
- 모든 시간 단계 간의 직접적인 어텐션 연결 덕분에 장거리 의존성을 효과적으로 모델링할 수 있었다.
- 다중 헤드 자기어텐션의 사용으로 은닉 상태의 병렬 계산이 가능해져 훈련 효율성이 크게 향상되었다.
- WaveNet 보코다가 생성된 멜 스펙트로그램을 고해상도 오디오로 성공적으로 변환하여 높은 청취 품질에 기여했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.