Skip to main content
QUICK REVIEW

[논문 리뷰] Improving Transformer-based Speech Recognition Using Unsupervised Pre-training

Dongwei Jiang, Xiaoning Lei|arXiv (Cornell University)|2019. 10. 22.
Speech Recognition and Synthesis참고 문헌 30인용 수 103
한 줄 요약

논문은 Masked Predictive Coding (MPC)을 Transformer 기반 ASR 모델의 비지도 사전 학습에 도입하여, varying pre-training data sizes and speaking styles에 따른 HKUST 및 AISHELL-1에서의 CER 감소를 달성한다.

ABSTRACT

Speech recognition technologies are gaining enormous popularity in various industrial applications. However, building a good speech recognition system usually requires large amounts of transcribed data, which is expensive to collect. To tackle this problem, an unsupervised pre-training method called Masked Predictive Coding is proposed, which can be applied for unsupervised pre-training with Transformer based model. Experiments on HKUST show that using the same training data, we can achieve CER 23.3%, exceeding the best end-to-end model by over 0.2% absolute CER. With more pre-training data, we can further reduce the CER to 21.0%, or a 11.8% relative CER reduction over baseline.

연구 동기 및 목표

  • 대량의 라벨링된 데이터에 의존하는 ASR의 의존도를 축소하고 풍부한 비라벨링 오디오 데이터를 활용하려는 동기 부여.
  • BERT의 MLM에서 영감을 얻은 Transformer 호환 비지도 사전 학습 목표를 제안한다.
  • 다양한 전처리 데이터 크기와 말하기 스타일에서 MPC가 아래의 ASR 성능을 개선하는지 보여준다.
  • 미세 조정 성능에 미치는 사전 학습 데이터 크기와 말하기 스타일의 영향을 평가한다.

제안 방법

  • Encoder에 Masked Predictive Coding을 적용한 Transformer 기반 ASR 설정.
  • masked frames에 대해 15%를 마스킹하고 L1 손실로 인코더 출력을 재구성하며, 마스크된 프레임에 대해 80/10/10 교체 체계를 사용한다.
  • 사전 학습에서 입력 피처를 8x 축소 및 8kHz 데이터로 다운샘플링하고, 미세 조정에서도 다운샘플링을 적용한다.
  • 사전 학습 후 MPC 특화 구성 요소를 제거하고 감독 학습 미세 조정을 위해 Transformer 디코더를 추가한다.
  • 데이터 크기와 스타일 효과를 연구하기 위해 HKUST와 AISHELL-1, 그리고 Open Mandarin 및 내부 데이터(Didi Callcenter, Didi Dictation)를 실험에 포함한다.
  • 비지도 사전 학습으로 얻은 이익을 맥락화하기 위해 APC 및 감독 어댑터와의 비교를 수행한다.

실험 결과

연구 질문

  • RQ1MPC 사전 학습이 라벨 데이터가 제한된 경우 Transformer 기반 ASR 성능을 개선하는가?
  • RQ2사전 학습 데이터의 크기와 말하기 스타일이 미세 조정 후 하위 CER에 어떤 영향을 미치는가?
  • RQ3MPC와 APC 및 감독 어댑터 간의 성능 및 데이터 요구 사항 측면에서의 차이는 무엇인가?

주요 결과

  • Open Mandarin(약 1500시간)으로 사전 학습한 MPC가 HKUST CER을 22.9–23.3%로, AISHELL-1 CER을 7.8–8.1%로 감소시키며 다양한 설정에서 강한 Baseline을 능가한다.
  • 약 1500시간의 Open Mandarin 데이터로 HKUST CER이 23.5%에서 23.3%로 감소하고, 더 많은 사전 학습 데이터로 추가 개선이 나타난다.
  • Didi Callcenter를 5000시간으로 사전 학습하면 8kHz 다운샘플링 데이터에서 HKUST CER이 21.0%, AISHELL-1 CER이 7.7–7.8%로 나타나 말하기 스타일과 더 큰 데이터의 이점이 강하다는 것을 시사한다.
  • Didi Dictation 또는 Didi Callcenter를 10000시간으로 사전 학습하면 베이스라인 대비 HKUST의 AISHELL-1 CER를 상당한 차이로 감소시킬 수 있으며(대략 상대적으로 최대 ~11.8%는 HKUST, AISHELL-1은 ~22.1%),
  • 비지도 MPC 접근법은 감독 적응 성능에 근접할 수 있지만, 전사된 데이터가 이용 가능할 때는 감독 적응이 더 강하다는 점이 남는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.