[논문 리뷰] Improving Transformer-based Speech Recognition Using Unsupervised Pre-training
논문은 Masked Predictive Coding (MPC)을 Transformer 기반 ASR 모델의 비지도 사전 학습에 도입하여, varying pre-training data sizes and speaking styles에 따른 HKUST 및 AISHELL-1에서의 CER 감소를 달성한다.
Speech recognition technologies are gaining enormous popularity in various industrial applications. However, building a good speech recognition system usually requires large amounts of transcribed data, which is expensive to collect. To tackle this problem, an unsupervised pre-training method called Masked Predictive Coding is proposed, which can be applied for unsupervised pre-training with Transformer based model. Experiments on HKUST show that using the same training data, we can achieve CER 23.3%, exceeding the best end-to-end model by over 0.2% absolute CER. With more pre-training data, we can further reduce the CER to 21.0%, or a 11.8% relative CER reduction over baseline.
연구 동기 및 목표
- 대량의 라벨링된 데이터에 의존하는 ASR의 의존도를 축소하고 풍부한 비라벨링 오디오 데이터를 활용하려는 동기 부여.
- BERT의 MLM에서 영감을 얻은 Transformer 호환 비지도 사전 학습 목표를 제안한다.
- 다양한 전처리 데이터 크기와 말하기 스타일에서 MPC가 아래의 ASR 성능을 개선하는지 보여준다.
- 미세 조정 성능에 미치는 사전 학습 데이터 크기와 말하기 스타일의 영향을 평가한다.
제안 방법
- Encoder에 Masked Predictive Coding을 적용한 Transformer 기반 ASR 설정.
- masked frames에 대해 15%를 마스킹하고 L1 손실로 인코더 출력을 재구성하며, 마스크된 프레임에 대해 80/10/10 교체 체계를 사용한다.
- 사전 학습에서 입력 피처를 8x 축소 및 8kHz 데이터로 다운샘플링하고, 미세 조정에서도 다운샘플링을 적용한다.
- 사전 학습 후 MPC 특화 구성 요소를 제거하고 감독 학습 미세 조정을 위해 Transformer 디코더를 추가한다.
- 데이터 크기와 스타일 효과를 연구하기 위해 HKUST와 AISHELL-1, 그리고 Open Mandarin 및 내부 데이터(Didi Callcenter, Didi Dictation)를 실험에 포함한다.
- 비지도 사전 학습으로 얻은 이익을 맥락화하기 위해 APC 및 감독 어댑터와의 비교를 수행한다.
실험 결과
연구 질문
- RQ1MPC 사전 학습이 라벨 데이터가 제한된 경우 Transformer 기반 ASR 성능을 개선하는가?
- RQ2사전 학습 데이터의 크기와 말하기 스타일이 미세 조정 후 하위 CER에 어떤 영향을 미치는가?
- RQ3MPC와 APC 및 감독 어댑터 간의 성능 및 데이터 요구 사항 측면에서의 차이는 무엇인가?
주요 결과
- Open Mandarin(약 1500시간)으로 사전 학습한 MPC가 HKUST CER을 22.9–23.3%로, AISHELL-1 CER을 7.8–8.1%로 감소시키며 다양한 설정에서 강한 Baseline을 능가한다.
- 약 1500시간의 Open Mandarin 데이터로 HKUST CER이 23.5%에서 23.3%로 감소하고, 더 많은 사전 학습 데이터로 추가 개선이 나타난다.
- Didi Callcenter를 5000시간으로 사전 학습하면 8kHz 다운샘플링 데이터에서 HKUST CER이 21.0%, AISHELL-1 CER이 7.7–7.8%로 나타나 말하기 스타일과 더 큰 데이터의 이점이 강하다는 것을 시사한다.
- Didi Dictation 또는 Didi Callcenter를 10000시간으로 사전 학습하면 베이스라인 대비 HKUST의 AISHELL-1 CER를 상당한 차이로 감소시킬 수 있으며(대략 상대적으로 최대 ~11.8%는 HKUST, AISHELL-1은 ~22.1%),
- 비지도 MPC 접근법은 감독 적응 성능에 근접할 수 있지만, 전사된 데이터가 이용 가능할 때는 감독 적응이 더 강하다는 점이 남는다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.