QUICK REVIEW

[논문 리뷰] Improving Transformer-based Speech Recognition Using Unsupervised Pre-training

Dongwei Jiang, Xiaoning Lei|arXiv (Cornell University)|2019. 10. 22.

Speech Recognition and Synthesis참고 문헌 30인용 수 103

한 줄 요약

논문은 Masked Predictive Coding (MPC)을 Transformer 기반 ASR 모델의 비지도 사전 학습에 도입하여, varying pre-training data sizes and speaking styles에 따른 HKUST 및 AISHELL-1에서의 CER 감소를 달성한다.

ABSTRACT

Speech recognition technologies are gaining enormous popularity in various industrial applications. However, building a good speech recognition system usually requires large amounts of transcribed data, which is expensive to collect. To tackle this problem, an unsupervised pre-training method called Masked Predictive Coding is proposed, which can be applied for unsupervised pre-training with Transformer based model. Experiments on HKUST show that using the same training data, we can achieve CER 23.3%, exceeding the best end-to-end model by over 0.2% absolute CER. With more pre-training data, we can further reduce the CER to 21.0%, or a 11.8% relative CER reduction over baseline.

연구 동기 및 목표

대량의 라벨링된 데이터에 의존하는 ASR의 의존도를 축소하고 풍부한 비라벨링 오디오 데이터를 활용하려는 동기 부여.
BERT의 MLM에서 영감을 얻은 Transformer 호환 비지도 사전 학습 목표를 제안한다.
다양한 전처리 데이터 크기와 말하기 스타일에서 MPC가 아래의 ASR 성능을 개선하는지 보여준다.
미세 조정 성능에 미치는 사전 학습 데이터 크기와 말하기 스타일의 영향을 평가한다.

제안 방법

Encoder에 Masked Predictive Coding을 적용한 Transformer 기반 ASR 설정.
masked frames에 대해 15%를 마스킹하고 L1 손실로 인코더 출력을 재구성하며, 마스크된 프레임에 대해 80/10/10 교체 체계를 사용한다.
사전 학습에서 입력 피처를 8x 축소 및 8kHz 데이터로 다운샘플링하고, 미세 조정에서도 다운샘플링을 적용한다.
사전 학습 후 MPC 특화 구성 요소를 제거하고 감독 학습 미세 조정을 위해 Transformer 디코더를 추가한다.
데이터 크기와 스타일 효과를 연구하기 위해 HKUST와 AISHELL-1, 그리고 Open Mandarin 및 내부 데이터(Didi Callcenter, Didi Dictation)를 실험에 포함한다.
비지도 사전 학습으로 얻은 이익을 맥락화하기 위해 APC 및 감독 어댑터와의 비교를 수행한다.

실험 결과

연구 질문

RQ1MPC 사전 학습이 라벨 데이터가 제한된 경우 Transformer 기반 ASR 성능을 개선하는가?
RQ2사전 학습 데이터의 크기와 말하기 스타일이 미세 조정 후 하위 CER에 어떤 영향을 미치는가?
RQ3MPC와 APC 및 감독 어댑터 간의 성능 및 데이터 요구 사항 측면에서의 차이는 무엇인가?

주요 결과

Open Mandarin(약 1500시간)으로 사전 학습한 MPC가 HKUST CER을 22.9–23.3%로, AISHELL-1 CER을 7.8–8.1%로 감소시키며 다양한 설정에서 강한 Baseline을 능가한다.
약 1500시간의 Open Mandarin 데이터로 HKUST CER이 23.5%에서 23.3%로 감소하고, 더 많은 사전 학습 데이터로 추가 개선이 나타난다.
Didi Callcenter를 5000시간으로 사전 학습하면 8kHz 다운샘플링 데이터에서 HKUST CER이 21.0%, AISHELL-1 CER이 7.7–7.8%로 나타나 말하기 스타일과 더 큰 데이터의 이점이 강하다는 것을 시사한다.
Didi Dictation 또는 Didi Callcenter를 10000시간으로 사전 학습하면 베이스라인 대비 HKUST의 AISHELL-1 CER를 상당한 차이로 감소시킬 수 있으며(대략 상대적으로 최대 ~11.8%는 HKUST, AISHELL-1은 ~22.1%),
비지도 MPC 접근법은 감독 적응 성능에 근접할 수 있지만, 전사된 데이터가 이용 가능할 때는 감독 적응이 더 강하다는 점이 남는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.