[논문 리뷰] JDI-T: Jointly trained Duration Informed Transformer for Text-To-Speech without Explicit Alignment
JDI-T는 텍스트-to-스피치를 위한 단일 단계, 동시 학습된 지속시간 정보를 반영한 트랜스포머를 제안하며, 사전 학습된 어텐션 정렬 모델이나 지속시간 추출기 없이도, 동시 학습 중 자동회귀 트랜스포머의 어텐션 가중치에서 실시간으로 음소 지속시간을 추출함으로써 이러한 필요성을 제거합니다. 이 방법은 한국어 데이터셋에서 최신 기술 수준의 음성 품질을 달성하여 주관적 평가에서 자동회귀 및 비자기회귀 기반 베이스라인을 모두 능가합니다.
We propose Jointly trained Duration Informed Transformer (JDI-T), a feed-forward Transformer with a duration predictor jointly trained without explicit alignments in order to generate an acoustic feature sequence from an input text. In this work, inspired by the recent success of the duration informed networks such as FastSpeech and DurIAN, we further simplify its sequential, two-stage training pipeline to a single-stage training. Specifically, we extract the phoneme duration from the autoregressive Transformer on the fly during the joint training instead of pretraining the autoregressive model and using it as a phoneme duration extractor. To our best knowledge, it is the first implementation to jointly train the feed-forward Transformer without relying on a pre-trained phoneme duration extractor in a single training pipeline. We evaluate the effectiveness of the proposed model on the publicly available Korean Single speaker Speech (KSS) dataset compared to the baseline text-to-speech (TTS) models trained by ESPnet-TTS.
연구 동기 및 목표
- 기존에 두 단계 과정과 사전 학습된 정렬 추출기를 필요로 하는 지속시간 정보를 반영한 TTS 모델의 학습 파이프라인을 단순화하기 위해.
- 비자기회귀 TTS에서 학습 안정성과 정렬 신뢰도를 향상시키기 위해 동시 학습 중 자동회귀 트랜스포머를 동적 지속시간 추출기로 활용함으로써.
- 명시적인 어텐션 정렬이나 외부 지속시간 감시 없이도 고품질, 강건하고 빠른 음성 합성 구현을 위해.
- 공동 학습이 타코트론2나 트랜스포머와 같은 티처 모델의 품질에 도달하거나 초월할 수 있는지 평가하기 위해.
제안 방법
- 모델은 피드포워드 트랜스포머, 지속시간 예측기, 자동회귀 트랜스포머를 단일 엔드 투 엔드 파이프라인에서 동시에 학습합니다.
- 학습 중 자동회귀 트랜스포머의 어텐션 가중치에서 실시간으로 음소 지속시간을 추출하여 사전 학습된 지속시간 추출기가 필요 없도록 합니다.
- 초기 학습 단계에서 어텐션 메커니즘의 안정성을 향상시키기 위해 보조 손실을 적용하여 지속시간 추출의 신뢰도를 높입니다.
- 단조적 정렬을 강제로 적용하고 어텐션 기반 지속시간 추정의 불안정성을 줄이기 위해 정방향 어텐션 메커니즘을 채택합니다.
- 피드포워드 트랜스포머는 예측된 지속시간을 기반으로 음소 시퀀스와 멜스펙트로그램 출력을 정렬하기 위해 길이 조절기(length regulator)를 사용합니다.
- 모델은 4개의 V100 GPU에서 300k 스텝 스케줄로 RAdam를 사용하여 학습되며, 추론에는 피드포워드 트랜스포머와 지속시간 예측기만 사용합니다.
실험 결과
연구 질문
- RQ1비자기회귀 TTS 모델이 명시적인 정렬 감시나 사전 학습된 지속시간 추출기가 없이도 고품질 음성 합성을 달성할 수 있는가?
- RQ2피드포워드 트랜스포머, 지속시간 예측기, 자동회귀 티처 모델을 동시에 학습하는 것이 두 단계 학습 대비 학습 안정성과 합성 품질을 향상시키는가?
- RQ3공동 학습 중 어텐션 가중치에서 실시간으로 지속시간을 추출하는 것이 지속시간 정보를 반영한 TTS에서 사전 학습된 정렬 모델이 필요 없도록 할 수 있는가?
- RQ4제안된 모델은 타코트론2나 트랜스포머와 같은 자동회귀 모델과, 패스트스피치와 같은 비자기회귀 모델에 비해 주관적 품질에서 어떻게 비교되는가?
주요 결과
- 내부 스튜디오 수준의 데이터셋에서 JDI-T는 평균 평가 점수(MOS) 3.77을 기록하여 패스트스피치(3.48)를 능가하고 자동회귀 트랜스포머(3.55)의 성능과도 맞먹습니다.
- KSS 데이터셋에서 JDI-T는 MOS 3.52를 기록하여 패스트스피치(3.23)를 능가하고 자동회귀 트랜스포머(3.72)의 성능에 가까이 다가섭니다.
- 제안된 모델는 자동회귀 모델 대비 강건성과 더 빠른 추론 속도를 보였으며, 특히 도메인 외부 스크립트에서 높은 합성 오류율을 보였던 자동회귀 모델과 대비됩니다.
- 공동 학습 프레임워크는 사전 학습된 지속시간 추출기가 필요 없음을 성공적으로 제거하여 학습 파이프라인을 단일 단계로 단순화했습니다.
- 보조 손실과 정방향 어텐션 메커니즘이 어텐션 안정성을 크게 향상시켜 초기 학습 단계에서도 자동회귀 모델에서 신뢰할 수 있는 지속시간 추출이 가능하게 되었습니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.