Skip to main content
QUICK REVIEW

[논문 리뷰] Unsupervised pre-training for sequence to sequence speech recognition

Zhiyun Fan, Shiyu Zhou|arXiv (Cornell University)|2019. 10. 28.
Speech Recognition and Synthesis참고 문헌 23인용 수 20
한 줄 요약

이 논문은 쌍이 맞지 않는 음성과 텍스트 데이터를 사용하여 시퀀스-투-시퀀스 음성 인식 모델을 위한 이중 단계 비지도 사전 훈련 방법을 제안한다. 첫 번째로, 연속된 음성 특징 조각을 마스킹하고 문맥에서 예측함으로써 레이블이 없는 음성 데이터에서 인코더를 사전 훈련한다. 두 번째로, TTS 시스템을 사용하여 원문 텍스트에서 합성된 음성을 사용하여 디코더를 사전 훈련한다. 이 방법은 AISHELL-1에서 상대적 CER 감소율 78.8%, HKUST에서 90.0%를 기록하며, 저자원 및 다국어 설정에서 일관된 성능 향상을 보였다.

ABSTRACT

This paper proposes a novel approach to pre-train encoder-decoder sequence-to-sequence (seq2seq) model with unpaired speech and transcripts respectively. Our pre-training method is divided into two stages, named acoustic pre-trianing and linguistic pre-training. In the acoustic pre-training stage, we use a large amount of speech to pre-train the encoder by predicting masked speech feature chunks with its context. In the linguistic pre-training stage, we generate synthesized speech from a large number of transcripts using a single-speaker text to speech (TTS) system, and use the synthesized paired data to pre-train decoder. This two-stage pre-training method integrates rich acoustic and linguistic knowledge into seq2seq model, which will benefit downstream automatic speech recognition (ASR) tasks. The unsupervised pre-training is finished on AISHELL-2 dataset and we apply the pre-trained model to multiple paired data ratios of AISHELL-1 and HKUST. We obtain relative character error rate reduction (CERR) from 38.24% to 7.88% on AISHELL-1 and from 12.00% to 1.20% on HKUST. Besides, we apply our pretrained model to a cross-lingual case with CALLHOME dataset. For all six languages in CALLHOME dataset, our pre-training method makes model outperform baseline consistently.

연구 동기 및 목표

  • 쌍이 맞지 않는 음성과 텍스트 데이터를 활용하여 종단 간 자동 음성 인식(ASR)에서 비용이 많이 드는 지도 학습용 음성-텍스트 쌍에 대한 의존도를 줄이기 위해.
  • 쌍이 맞는 훈련 데이터가 부족한 저자원 ASR 환경에서 모델 성능을 향상시키기 위해.
  • 쌍이 맞지 않는 데이터에서 비지도 사전 훈련이 도메인 또는 언어 불일치가 있을 경우에도 후행 ASR 성능을 향상시킬 수 있는지 탐색하기 위해.
  • 시퀀스-투-시퀀스 프레임워크에서 청각적 사전 훈련과 언어적 사전 훈련 단계의 개별 기여도를 조사하기 위해.

제안 방법

  • 대규모 레이블이 없는 음성 데이터에서 연속된 음성 조각을 마스킹하고 문맥에서 예측하는 목표를 사용하여 인코더를 사전 훈련한다.
  • 단일 화자 음성 합성(TTS) 시스템을 사용하여 대규모 텍스트 코퍼스에서 합성 음성을 생성하여 디코더 사전 훈련을 위한 쌍화된 데이터를 만든다.
  • 합성된 쌍화된 데이터를 사용하여 디코더를 사전 훈련하여 언어적 구조와 정렬을 학습한다. 비록 음성 품질이 반복적이지만 말이다.
  • Transformer 기반 인코더-디코더 아키텍처를 사용하여 제한된 쌍화된 데이터에서 피니팅을 통해 후행 ASR 작업에 이중 단계 사전 훈련 모델을 적용한다.
  • 청각적 사전 훈련(음성에서)과 언어적 사전 훈련(합성된 TTS 음성에서)의 기여도를 분리하기 위해 추론 실험을 수행한다.
  • 도메인 내, 도메인 외 및 다국어 설정에서 성능을 평가하여 강건성과 전이 가능성의 정도를 분석한다.

실험 결과

연구 질문

  • RQ1쌍이 맞지 않는 음성과 텍스트에서 비지도 사전 훈련이 쌍화된 데이터가 제한된 경우 시퀀스-투-시퀀스 ASR 성능을 향상시킬 수 있는가?
  • RQ2마스킹된 음성 특징에 기반한 인코더 사전 훈련이 후행 ASR 정확도를 향상시키는가?
  • RQ3합성된 TTS 음성에서 텍스트를 기반으로 디코더를 사전 훈련하는 것이 반복적인 음성 품질에도 불구하고 모델 성능 향상에 기여하는가?
  • RQ4다양한 양의 도메인 내 쌍화된 데이터에서 청각적 사전 훈련과 언어적 사전 훈련 단계의 효과는 어떻게 비교되는가?
  • RQ5사전 훈련된 모델이 도메인 외부 또는 다국어 ASR 작업으로 일반화되는가?

주요 결과

  • 제안된 이중 단계 비지도 사전 훈련은 AISHELL-1에서 상대적 문자 오류률(CERR)을 38.24%에서 7.88%로 78.8% 감소시켰다.
  • HKUST 데이터셋에서는 CERR를 12.00%에서 1.20%로 90.0% 감소시켜 저자원 설정에서 뛰어난 성능을 보였다.
  • 추론 실험 결과, 청각적 사전 훈련과 언어적 사전 훈련 모두 성능 향상에 독립적으로 기여하며, 특히 쌍화된 데이터가 부족할 경우(예: 10시간) 언어적 사전 훈련이 더 효과적임을 확인했다.
  • 사전 훈련 데이터와 도메인 내 데이터 간 도메인 불일치가 있을 경우, 청각적 사전 훈련이 언어적 사전 훈련보다 더 큰 기여를 하며, 특히 데이터가 많은 환경에서 두드러진다.
  • 이 방법은 다국어 설정으로 효과적으로 일반화된다: CALLHOME 데이터셋의 6개 언어 전반에서 사전 훈련된 가중치로 초기화된 모델은 수렴하며 무작위 초기화보다 성능이 뛰어나다.
  • 사전 훈련된 모델은 랜덤 초기화 기반 모델보다 수렴 속도가 빠르며, 특히 제한된 도메인 내 데이터에서 지도 학습 기반 사전 훈련 모델과 유사한 성능을 기록한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.