[논문 리뷰] Towards Transfer Learning for End-to-End Speech Synthesis from Deep Pre-Trained Language Models
이 논문은 전이 학습을 활용하여 BERT 표현을 Tacotron-2의 병렬 텍스트 인코더로 통합하여, 공개적으로 이용 가능한 낮은 품질의 데이터에서 엔드 투 엔드 음성 합성 성능을 향상시키는 것을 제안한다. BERT의 깊이 있는 문맥 임베딩을 Tacotron-2의 인코더 출력과 연결함으로써, 모델은 더 빠른 학습 수렴과 상당히 감소한 후행 음성 잡음( babbling)을 달성하지만, 자연스러움과 목적적 지표에서는 기준 모델 대비 최소한의 향상만을 보인다.
Modern text-to-speech (TTS) systems are able to generate audio that sounds almost as natural as human speech. However, the bar of developing high-quality TTS systems remains high since a sizable set of studio-quality pairs is usually required. Compared to commercial data used to develop state-of-the-art systems, publicly available data are usually worse in terms of both quality and size. Audio generated by TTS systems trained on publicly available data tends to not only sound less natural, but also exhibits more background noise. In this work, we aim to lower TTS systems' reliance on high-quality data by providing them the textual knowledge extracted by deep pre-trained language models during training. In particular, we investigate the use of BERT to assist the training of Tacotron-2, a state of the art TTS consisting of an encoder and an attention-based decoder. BERT representations learned from large amounts of unlabeled text data are shown to contain very rich semantic and syntactic information about the input text, and have potential to be leveraged by a TTS system to compensate the lack of high-quality data. We incorporate BERT as a parallel branch to the Tacotron-2 encoder with its own attention head. For an input text, it is simultaneously passed into BERT and the Tacotron-2 encoder. The representations extracted by the two branches are concatenated and then fed to the decoder. As a preliminary study, although we have not found incorporating BERT into Tacotron-2 generates more natural or cleaner speech at a human-perceivable level, we observe improvements in other aspects such as the model is being significantly better at knowing when to stop decoding such that there is much less babbling at the end of the synthesized audio and faster convergence during training.
연구 동기 및 목표
- 사전 훈련된 언어 모델을 활용하여 엔드 투 엔드 텍스트 음성 합성(TTS) 시스템에서 높은 데이터 품질 장벽을 해결한다.
- 고가의 스튜디오 수준의 <텍스트, 음성> 쌍에 대한 의존도를 줄이기 위해 BERT에서 유래한 풍부한 언어 지식을 통합한다.
- 음성 자연스러움을 훼손하지 않으면서 학습 효율성과 추론 행동(특히 정지 토큰 예측)을 향상시킨다.
- 공개된 데이터를 활용한 저자원 환경에서 사전 훈련된 언어 표현이 TTS 성능 향상에 기여할 수 있는지 탐색한다.
제안 방법
- 동일한 입력 텍스트를 처리하는 Tacotron-2 인코더와 병렬로 BERT를 인코더 브랜치로 통합한다.
- 각 입력 토큰에 대해 BERT의 최종 레이어에서 문맥 기반 텍스트 표현을 추출한다.
- 각 타임스텝에서 BERT의 표현을 Tacotron-2의 인코더 출력과 연결한다.
- 디코더에서 두 인코더 표현(즉, Tacotron-2 및 BERT)을 각각 참조할 수 있는 별도의 어텐션 헤드를 사용한다.
- 연결된 컨텍스트 벡터를 디코더의 순차적 LSTM에 입력하여 스펙트럼 특징을 예측한다.
- 표준 Tacotron-2 손실 함수를 사용하여 TTS 및 BERT 컴ponent를 모두 미세조정하면서 전체 모델을 엔드 투 엔드로 훈련한다.
실험 결과
연구 질문
- RQ1공개적으로 이용 가능한 낮은 품질의 데이터에서 훈련된 사전 훈련된 언어 모델 표현(예: BERT)이 엔드 투 엔드 TTS 성능을 향상시킬 수 있는가?
- RQ2BERT 표현을 통합함으로써 표준 Tacotron-2 대비 TTS 학습 중 수렴 속도가 빨라지는가?
- RQ3BERT 표현 통합이 후행 음성 잡음 또는 과도한 생성과 같은 일반적인 TTS 아티팩트를 감소시키는가?
- RQ4BERT 표현은 디코딩 정지를 예측하는 데 얼마나 기여하는가?
- RQ5자연스러움의 변화가 미미함에도 불구하고 목적적 지표(MCD13, FFE 등)에서 측정 가능한 향상이 있는가?
주요 결과
- 그림 2의 학습 곡선을 통해 제안된 모델이 기준 Tacotron-2보다 상당히 더 빠른 수렴 속도를 보임을 확인하였다.
- BERT 통합 모델은 후행 음성 잡음을 극적으로 감소시켰으며, 디코더가 더 정확하게 디코딩을 중단하는 것을 학습하였다.
- 더 빠른 수렴과 더 나은 정지 예측에도 불구하고, 학습 종료 시 청취자 평가나 MCD13/FFE 지표에서 통계적으로 유의미한 향상이 없었다.
- FFE 지표는 자연스러움과 더 잘 상관관계를 보이며, MCD13는 진동하고 자연스러움과 상관관계가 떨어지는 경향을 보여, 음성 품질과의 관련성이 더 높았다.
- 어텐션 시각화 결과, BERT의 어텐션 패턴은 Tacotron-2 인코더보다 덜 집중적이고 더 산산이 흩어져 있어 보이며, 보조적이고 지배적이지 않은 정보를 제공하는 것으로 나타났다.
- BERT 인코더의 표현은 어텐션 정렬에서 영향력이 덜한 것으로 나타나, 주로 텍스트-음성 매핑은 여전히 Tacotron-2 인코더가 학습한 표현에 의해 이끌린다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.