QUICK REVIEW

[논문 리뷰] Unsupervised pre-training for sequence to sequence speech recognition

Zhiyun Fan, Shiyu Zhou|arXiv (Cornell University)|2019. 10. 28.

Speech Recognition and Synthesis참고 문헌 23인용 수 20

한 줄 요약

이 논문은 쌍이 맞지 않는 음성과 텍스트 데이터를 사용하여 시퀀스-투-시퀀스 음성 인식 모델을 위한 이중 단계 비지도 사전 훈련 방법을 제안한다. 첫 번째로, 연속된 음성 특징 조각을 마스킹하고 문맥에서 예측함으로써 레이블이 없는 음성 데이터에서 인코더를 사전 훈련한다. 두 번째로, TTS 시스템을 사용하여 원문 텍스트에서 합성된 음성을 사용하여 디코더를 사전 훈련한다. 이 방법은 AISHELL-1에서 상대적 CER 감소율 78.8%, HKUST에서 90.0%를 기록하며, 저자원 및 다국어 설정에서 일관된 성능 향상을 보였다.

ABSTRACT

This paper proposes a novel approach to pre-train encoder-decoder sequence-to-sequence (seq2seq) model with unpaired speech and transcripts respectively. Our pre-training method is divided into two stages, named acoustic pre-trianing and linguistic pre-training. In the acoustic pre-training stage, we use a large amount of speech to pre-train the encoder by predicting masked speech feature chunks with its context. In the linguistic pre-training stage, we generate synthesized speech from a large number of transcripts using a single-speaker text to speech (TTS) system, and use the synthesized paired data to pre-train decoder. This two-stage pre-training method integrates rich acoustic and linguistic knowledge into seq2seq model, which will benefit downstream automatic speech recognition (ASR) tasks. The unsupervised pre-training is finished on AISHELL-2 dataset and we apply the pre-trained model to multiple paired data ratios of AISHELL-1 and HKUST. We obtain relative character error rate reduction (CERR) from 38.24% to 7.88% on AISHELL-1 and from 12.00% to 1.20% on HKUST. Besides, we apply our pretrained model to a cross-lingual case with CALLHOME dataset. For all six languages in CALLHOME dataset, our pre-training method makes model outperform baseline consistently.

연구 동기 및 목표

쌍이 맞지 않는 음성과 텍스트 데이터를 활용하여 종단 간 자동 음성 인식(ASR)에서 비용이 많이 드는 지도 학습용 음성-텍스트 쌍에 대한 의존도를 줄이기 위해.
쌍이 맞는 훈련 데이터가 부족한 저자원 ASR 환경에서 모델 성능을 향상시키기 위해.
쌍이 맞지 않는 데이터에서 비지도 사전 훈련이 도메인 또는 언어 불일치가 있을 경우에도 후행 ASR 성능을 향상시킬 수 있는지 탐색하기 위해.
시퀀스-투-시퀀스 프레임워크에서 청각적 사전 훈련과 언어적 사전 훈련 단계의 개별 기여도를 조사하기 위해.

제안 방법

대규모 레이블이 없는 음성 데이터에서 연속된 음성 조각을 마스킹하고 문맥에서 예측하는 목표를 사용하여 인코더를 사전 훈련한다.
단일 화자 음성 합성(TTS) 시스템을 사용하여 대규모 텍스트 코퍼스에서 합성 음성을 생성하여 디코더 사전 훈련을 위한 쌍화된 데이터를 만든다.
합성된 쌍화된 데이터를 사용하여 디코더를 사전 훈련하여 언어적 구조와 정렬을 학습한다. 비록 음성 품질이 반복적이지만 말이다.
Transformer 기반 인코더-디코더 아키텍처를 사용하여 제한된 쌍화된 데이터에서 피니팅을 통해 후행 ASR 작업에 이중 단계 사전 훈련 모델을 적용한다.
청각적 사전 훈련(음성에서)과 언어적 사전 훈련(합성된 TTS 음성에서)의 기여도를 분리하기 위해 추론 실험을 수행한다.
도메인 내, 도메인 외 및 다국어 설정에서 성능을 평가하여 강건성과 전이 가능성의 정도를 분석한다.

실험 결과

연구 질문

RQ1쌍이 맞지 않는 음성과 텍스트에서 비지도 사전 훈련이 쌍화된 데이터가 제한된 경우 시퀀스-투-시퀀스 ASR 성능을 향상시킬 수 있는가?
RQ2마스킹된 음성 특징에 기반한 인코더 사전 훈련이 후행 ASR 정확도를 향상시키는가?
RQ3합성된 TTS 음성에서 텍스트를 기반으로 디코더를 사전 훈련하는 것이 반복적인 음성 품질에도 불구하고 모델 성능 향상에 기여하는가?
RQ4다양한 양의 도메인 내 쌍화된 데이터에서 청각적 사전 훈련과 언어적 사전 훈련 단계의 효과는 어떻게 비교되는가?
RQ5사전 훈련된 모델이 도메인 외부 또는 다국어 ASR 작업으로 일반화되는가?

주요 결과

제안된 이중 단계 비지도 사전 훈련은 AISHELL-1에서 상대적 문자 오류률(CERR)을 38.24%에서 7.88%로 78.8% 감소시켰다.
HKUST 데이터셋에서는 CERR를 12.00%에서 1.20%로 90.0% 감소시켜 저자원 설정에서 뛰어난 성능을 보였다.
추론 실험 결과, 청각적 사전 훈련과 언어적 사전 훈련 모두 성능 향상에 독립적으로 기여하며, 특히 쌍화된 데이터가 부족할 경우(예: 10시간) 언어적 사전 훈련이 더 효과적임을 확인했다.
사전 훈련 데이터와 도메인 내 데이터 간 도메인 불일치가 있을 경우, 청각적 사전 훈련이 언어적 사전 훈련보다 더 큰 기여를 하며, 특히 데이터가 많은 환경에서 두드러진다.
이 방법은 다국어 설정으로 효과적으로 일반화된다: CALLHOME 데이터셋의 6개 언어 전반에서 사전 훈련된 가중치로 초기화된 모델은 수렴하며 무작위 초기화보다 성능이 뛰어나다.
사전 훈련된 모델은 랜덤 초기화 기반 모델보다 수렴 속도가 빠르며, 특히 제한된 도메인 내 데이터에서 지도 학습 기반 사전 훈련 모델과 유사한 성능을 기록한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.