Skip to main content
QUICK REVIEW

[논문 리뷰] Almost Unsupervised Text to Speech and Automatic Speech Recognition

Yi Ren, Xu Tan|arXiv (Cornell University)|2019. 05. 13.
Speech Recognition and Synthesis인용 수 40
한 줄 요약

논문은 수백 개의 짝 샘플과 대량의 비쌍 데이터를 활용하여 denoising auto-encoders, dual transformation, bidirectional sequence modeling 등을 통해 하나의 Transformer 기반 모델에서 TTS와 ASR을 함께 학습하는 거의 비지도 학습 프레임워크를 제시한다.

ABSTRACT

Text to speech (TTS) and automatic speech recognition (ASR) are two dual tasks in speech processing and both achieve impressive performance thanks to the recent advance in deep learning and large amount of aligned speech and text data. However, the lack of aligned data poses a major practical problem for TTS and ASR on low-resource languages. In this paper, by leveraging the dual nature of the two tasks, we propose an almost unsupervised learning method that only leverages few hundreds of paired data and extra unpaired data for TTS and ASR. Our method consists of the following components: (1) a denoising auto-encoder, which reconstructs speech and text sequences respectively to develop the capability of language modeling both in speech and text domain; (2) dual transformation, where the TTS model transforms the text $y$ into speech $\hat{x}$, and the ASR model leverages the transformed pair $(\hat{x},y)$ for training, and vice versa, to boost the accuracy of the two tasks; (3) bidirectional sequence modeling, which addresses error propagation especially in the long speech and text sequence when training with few paired data; (4) a unified model structure, which combines all the above components for TTS and ASR based on Transformer model. Our method achieves 99.84% in terms of word level intelligible rate and 2.68 MOS for TTS, and 11.7% PER for ASR on LJSpeech dataset, by leveraging only 200 paired speech and text data (about 20 minutes audio), together with extra unpaired speech and text data.

연구 동기 및 목표

  • 저자원 언어에서 TTS와 ASR의 데이터 부족 문제를 해결한다.
  • 최소한의 쌍 데이터로 TTS와 ASR의 이중 특성을 활용하여 두 작업을 개선한다.
  • 음성 및 텍스트 모두를 양방향으로 처리할 수 있는 통합 Transformer 기반 아키텍처를 개발한다.
  • 장기 시퀀스에서의 오류 전파를 양방향 시퀀스 모델링으로 완화한다.

제안 방법

  • 비쌍 데이터에서 언어 모델링을 학습하기 위해 denoising auto-encoder를 사용한다.
  • ASR 출력에서 TTS를 학습하고 TTS 출력에서 ASR을 학습하도록 이중 변환(백-번역에서 영감을 얻음)을 도입한다.
  • 왼쪽-오른쪽과 오른쪽-왼쪽 시퀀스를 생성하여 오류 전파를 줄이기 위해 양방향 시퀀스 모델링을 적용한다.
  • TTS와 ASR에 대해 공유 구성요소를 갖는 통합 Transformer 기반 모델을 채택하고, 음성 입력/출력 모듈과 텍스트 입력/출력 모듈을 포함한다.
  • 제한된 쌍 데이터에 대해 denoising auto-encoder 손실, 이중 변환 손실, 그리고 지도 학습 손실의 조합으로 학습한다.

실험 결과

연구 질문

  • RQ1수백 쌍의 샘플과 풍부한 비쌍 데이터만으로 거의 비지도 학습 설정에서 TTS와 ASR을 효과적으로 학습할 수 있는가?
  • RQ2TTS와 ASR의 이중 특성을 활용하는 이중 변환이 쌍 데이터만 사용하는 경우보다 두 작업을 개선하는가?
  • RQ3저자원 조건에서 긴 음성/텍스트 시퀀스에서의 오류 전파를 양방향 시퀀스 모델링으로 완화할 수 있는가?
  • RQ4공유 매개변수를 가진 입력/출력 모듈을 포함하는 통합 Transformer 기반 아키텍처가 TTS와 ASR 입력/출력을 모두 처리할 수 있는가?

주요 결과

MethodMOS (TTS)PER (ASR)
GT4.54-
GT (Griffin-Lim)3.21-
Supervised3.042.5%
Pair-200Null72.3%
Our Method2.6811.7%
  • 대략 200개의 쌍 샘플과 비쌍 데이터를 사용하여 TTS에서 99.84%의 단어 수준 가독성을 달성(200개의 쌍 데이터만으로는 거의 0에 가까운 가독성)
  • 동일 데이터 조건에서 LJSpeech에 대해 TTS 2.68 MOS 및 ASR 11.7% PER를 달성, 200쌍 데이터 기반 기준선보다 우수.
  • DT만 사용한 기준선 대비 양방향 시퀀스 모델링으로 MOS가 0.40 향상되고 PER이 3.6%p 감소.
  • 변형 제거를 통한 감소를 보여주는 제거 실험에서 DAE는 ASR PER를 72.3%에서 52.0%로 높이고; DT를 추가하면 PER가 15.3%로 낮아지며 MOS는 2.11로 떨어짐; 양방향 모델링을 추가하면 PER이 11.7%, MOS가 2.51로 추가 개선.
  • 더 많은 쌍 데이터(예: 500쌍)일 때 PER이 4.4%로 개선되어 지도 학습의 최저 한계(2.5%)에 근접.
  • 멜-스펙트로그램의 시각화는 시퀀스 끝에서 특히 더 미세한 디테일 회복을 보여주며 양방향 모델링의 효과를 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.