QUICK REVIEW

[논문 리뷰] Effectiveness of self-supervised pre-training for speech recognition

Alexei Baevski, Michael Auli|arXiv (Cornell University)|2019. 11. 10.

Speech Recognition and Synthesis참고 문헌 57인용 수 100

한 줄 요약

본 논문은 음성에 대한 자체 감독 사전 학습 접근법을 비교하고, vq-wav2vec를 통한 이산 단위 학습이 BERT 미세조정과 결합될 때 연속 표현보다 ASR 정확도가 더 높음을 보이며, 특히 제한된 라벨 데이터에서 더 두드러진다.

ABSTRACT

We compare self-supervised representation learning algorithms which either explicitly quantize the audio data or learn representations without quantization. We find the former to be more accurate since it builds a good vocabulary of the data through vq-wav2vec [1] to enable learning of effective representations in subsequent BERT training. Different to previous work, we directly fine-tune the pre-trained BERT models on transcribed speech using a Connectionist Temporal Classification (CTC) loss instead of feeding the representations into a task-specific model. We also propose a BERT-style model learning directly from the continuous audio data and compare pre-training on raw audio to spectral features. Fine-tuning a BERT model on 10 hour of labeled Librispeech data with a vq-wav2vec vocabulary is almost as good as the best known reported system trained on 100 hours of labeled data on testclean, while achieving a 25% WER reduction on test-other. When using only 10 minutes of labeled data, WER is 25.2 on test-other and 16.3 on test-clean. This demonstrates that self-supervision can enable speech recognition systems trained on a near-zero amount of transcribed data.

연구 동기 및 목표

자체 감독 표현 학습을 통해 ASR에 필요한 라벨 데이터 양을 줄이는 동기를 부여한다.
음성용 이산(양자화된) 학습과 연속(Self-supervised) 사전학습을 비교한다.
Librispeech에서 10분에서 100시간에 이르는 다양한 라벨 데이터 양에서의 사전 학습 영향력을 평가한다.
전사된 음성에 대해 CTC 손실로 바로 BERT 모델을 미세조정하는 것을 시연한다.
어떤 입력 표현(vq-wav2vec, MFCC, FBANK, wav2vec)이 최상의 결과를 낳는지 평가한다.

제안 방법

960시간의 Librispeech 비라벨 데이터에 대해 이산 vq-wav2vec를 사용하여 사전 학습하고 13.5k개의 코드를 학습한다.
이산화된 단위에 대해 마스킹 언어 모델링으로 BERT 모델을 학습하고 CTC 손실로 미세조정한다.
대조적/InfoNCE 목적을 갖춘 wav2vec, MFCC, 또는 FBANK 특징으로 학습된 연속 입력 BERT 변형과 비교한다.
Libri-light 하위집합(10분, 10시간, 1시간, 10시간, 100시간)에서 미리 학습된 모델을 미세조정하고 LibriSpeech 개발/테스트 세트에서 평가한다.
미세조정 시 SpecAugment 유사 마스킹을 적용하여 강인성을 향상시킨다.
데이터 리짐당 단일 시드 또는 다중 시드를 사용하고 최적화를 위한 코사인 스케줄을 적용한다.

실험 결과

연구 질문

RQ1자체 감독 사전 학습이 ASR에서 필요한 라벨 데이터 양을 줄일 수 있는가?
RQ2CTC로 미세조정될 때 이산 단위 발견(vq-wav2vec)이 연속 표현보다 다운스트림 ASR에 더 효과적인가?
RQ3다양한 라벨 데이터 양에서 서로 다른 입력 표현(vq-wav2vec, MFCC, FBANK, wav2vec)은 어떻게 비교되는가?
RQ4두 단계 사전 학습(wav2vec/이산 BERT)이 음성 인식에 대한 단일 단계 접근법을 능가하는가?
RQ5Librispeech에서 10분대 라벨 데이터와 100시간 데이터의 사전 학습이 성능에 미치는 영향은 무엇인가?

주요 결과

vq-wav2vec 입력을 갖는 이산 BERT가 모든 데이터 리짐에서 연속 입력 BERT를 지속적으로 능가한다.
vq-wav2vec 양자화는 두 개의 테스트 부분집합에서 군집된 스펙트럼 특징에 비해 약 40% 상대 WER 감소를 제공한다.
라벨 데이터 10시간으로 이산 BERT(vq-wav2vec)은 test-clean에서 최고 100시간 결과에 거의 근접하고 test-other에서 상대 WER를 25% 줄인다.
라벨 데이터가 단 10분일 때 이산 BERT는 16.3(test-clean) 및 25.2(test-other) WER를 달성한다.
10시간 라벨 데이터로 이산 BERT를 미세조정하면 100시간으로 학습된 문헌 결과에 거의 일치하고 test-other에서 WER을 25% 감소시킨다.
두 단계 사전 학습(wav2vec 다음 연속 BERT)은 단일 단계 wav2vec 미세조정에 비해 상당한 이득을 제공하며 경우에 따라 WER을 절반으로 줄인다.
후속 BERT 사전 학습 없이 이산 입력은 성능이 저하되므로 순서 모델링 단계의 필요성을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.