QUICK REVIEW

[논문 리뷰] Pushing the Limits of Semi-Supervised Learning for Automatic Speech Recognition

Zhang Yu, James Qin|arXiv (Cornell University)|2020. 10. 20.

Speech Recognition and Synthesis참고 문헌 53인용 수 200

한 줄 요약

이 논문은 wav2vec 2.0 pre-training을 Noisy Student Training과 SpecAugment와 결합하여 Libri-Light unlabeled 데이터를 사용해 LibriSpeech에서 최첨단 WER를 달성합니다. 대형 Conformer 모델로 test/test-other에서 1.4%/2.6%를 달성합니다.

ABSTRACT

We employ a combination of recent developments in semi-supervised learning for automatic speech recognition to obtain state-of-the-art results on LibriSpeech utilizing the unlabeled audio of the Libri-Light dataset. More precisely, we carry out noisy student training with SpecAugment using giant Conformer models pre-trained using wav2vec 2.0 pre-training. By doing so, we are able to achieve word-error-rates (WERs) 1.4%/2.6% on the LibriSpeech test/test-other sets against the current state-of-the-art WERs 1.7%/3.3%.

연구 동기 및 목표

대규모 반감독 학습의 활용을 통해 LibriSpeech에서 성능을 향상시키려는 ASR의 동기를 제시합니다.
사전학습과 반복적 자기학습(NST)을 결합하면 최첨단 WER를 달성할 수 있음을 입증합니다.
모델 크기와 사전학습 간의 상호작용이 ASR 성능을 어떻게 향상시키는지 탐구합니다.

제안 방법

Conformer 기반 시퀀스-트랜스듀서 모델을 LSTM 디코더와 함께 사용합니다.
Libri-Light 비라벨 데이터를 사용한 wav2vec 2.0 스타일의 자기-지도 학습 프리트레이닝으로 인코더를 사전 학습합니다(로그 멜 입력; 마스킹; 대조 손실; 양자화는 선형 프로젝션으로 대체).
다단 NST 루프에서 교사 레이블이 비라벨 데이터에 대해 생성되고 감독 데이터은 증강되는 Noisy Student Training을 적용합니다.
NST에서 프리트레이닝 체크포인트를 SpecAugment, LM 융합, 배치별 데이터 혼합(1:9 감독:교사 라벨)으로 미세조정합니다.
사전 학습과 학습을 scratch로 하는 것의 차이를 연구하기 위해 Conformer XL/XXL/XXL+ 크기를 실험합니다.
LM 융합 여부를 포함하여 LibriSpeech dev, dev-clean/dev-other, test, test-other에서 평가합니다.

실험 결과

연구 질문

RQ1 wav2vec 2.0 프리트레이닝과 반복적 자기학습(NST) 및 SpecAugment를 결합하면 LibriSpeech WER를 이전 SSL 방법들보다 넘어설 수 있는가?
RQ2모델 용량 증가가 프리트레이닝 및 SSL과 어떻게 상호작용하여 ASR 성능을 향상시키는가?
RQ3 NST에서 데이터 혼합, LM 융합 및 제거 실험의 결과가 최종 WER에 어떤 영향을 미치는가?
RQ4 Libri-Light의 대규모 비라벨 데이터에 의존하는 것이 이득에 필수적인가, 프리트레이닝 입력 표현(로그 멜 vs 파형)에 결과가 얼마나 민감한가?

주요 결과

NST+프리트레이닝 파이프라인과 거대한 Conformer를 사용하면 LibriSpeech dev/test 및 dev-other/test-other에서 최첨단 WER를 달성합니다(예: 1.3%/2.7%/1.5%/2.8% 없이 LM, 1.3%/2.7%/1.5%/2.7%로 Gen3 Conformer XXL일 때 LM 존재 시).
모델 크기만으로 이득이 보장되지는 않는다; SSL 방법들(프리트레이닝 및 NST)을 적용했을 때 이득이 발생한다.
Gen3 Conformer XXL 및 XXL+가 최상의 결과를 달성하며, NST 프레임워크 하에서 XXL+가 XXL보다 약간 더 향상된 이득을 제공한다.
로그 멜 입력과 선형 프로젝션 블록(양자화 없이)으로 프리트레이닝하는 것도 강한 성능을 낼 수 있어, 프로젝션 헤드 설계가 다를 수 있음을 시사한다.
교사 데이터의 양을 최대화하는 것이 이 설정의 generation-1 성능에 이익이 됨(필터링/균형화보다)
프리트레이닝 데이터와 모델 크기를 10억 파라미터까지 확장해도 감독-전용 학습만 확장하는 경우와 달리 일관된 개선을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.