QUICK REVIEW

[논문 리뷰] SpeechStew: Simply Mix All Available Speech Recognition Data to Train One Large Neural Network

William Chan, Daniel Park|arXiv (Cornell University)|2021. 04. 05.

Speech Recognition and Synthesis참고 문헌 54인용 수 75

한 줄 요약

SpeechStew는 여러 공개 ASR 데이터셋을 혼합하여 하나의 대형 엔드투엔드 모델을 훈련시키고, 외부 언어 모델 없이 최첨단 또는 거의 최첨단 결과를 달성하며 CHiME-6에 대한 강력한 전이 학습을 보인다.

ABSTRACT

We present SpeechStew, a speech recognition model that is trained on a combination of various publicly available speech recognition datasets: AMI, Broadcast News, Common Voice, LibriSpeech, Switchboard/Fisher, Tedlium, and Wall Street Journal. SpeechStew simply mixes all of these datasets together, without any special re-weighting or re-balancing of the datasets. SpeechStew achieves SoTA or near SoTA results across a variety of tasks, without the use of an external language model. Our results include 9.0\% WER on AMI-IHM, 4.7\% WER on Switchboard, 8.3\% WER on CallHome, and 1.3\% on WSJ, which significantly outperforms prior work with strong external language models. We also demonstrate that SpeechStew learns powerful transfer learning representations. We fine-tune SpeechStew on a noisy low resource speech dataset, CHiME-6. We achieve 38.9\% WER without a language model, which compares to 38.6\% WER to a strong HMM baseline with a language model.

연구 동기 및 목표

다양하고 공개적으로 이용 가능한 데이터셋을 재가중치 부여나 도메인 특화 조정 없이 활용하여 엔드-투-엔드 ASR의 일반화 향상을 모티브로 삼는다.
단일 모델을 100M 또는 1B 매개변수로 확장하는 간단한 다도메인 학습 레시피를 제안한다.
사전 학습 모델을 저자원, 노이즈가 많은 데이터셋(CHiME-6)에서 미세조정하여 전이 학습을 시연한다.
추론 시 외부 언어 모델을 사용하지 않고 광범위한 작업에 걸친 성능을 평가한다.

제안 방법

단일 대형 Conformer-RNN-T 모델(100M 및 1B 매개변수 구성)을 훈련한다.
데이터 재가중치 부여 없이 AMI, Common Voice, English Broadcast News, LibriSpeech, Switchboard/Fisher, TED-LIUM v3, WSJ를 결합한다.
감독 학습 SpeechStew 훈련 전에 LibriLight에서 wav2vec 2.0으로 1B 모델을 사전 학습한다.
SpecAugment 및 Adam/Adafactor 옵티마이저와 평가를 위한 지수 이동 평균으로 대형 배치 학습을 사용한다.
사전 학습된 SpeechStew를 CHiME-6에서 미세조정하여 전이 학습 능력을 시연한다.
추론 시 외부 언어 모델은 사용하지 않는다.

실험 결과

연구 질문

RQ1단순히 여러 공개 음성 인식 데이터셋을 혼합하는 것만으로도 단일 대형 모델이 다양한 ASR 작업에서 외부 언어 모델 없이 최첨단 혹은 근접 최첨단의 결과를 달성할 수 있는가?
RQ2:
RQ3대형 다도메인 모델이 미세조정 후 저자원, 노이즈가 많은 데이터에서의 전이 학습 능력을 보존하는가?
RQ4wav2vec 사전 학습이 매우 큰 매개변수 수를 가지는 대형 감독 SpeechStew 모델과 어떻게 상호작용하는가?

주요 결과

SpeechStew는 AMI-IHM에서 9.0 WER, Common Voice에서 21.7 WER(100M 모델)을 달성한다.
SpeechStew는 LibriSpeech에서 12.1 WER(클린), 9.7 WER(구두점 보정 포함)를 달성한다.
SpeechStew는 Switchboard에서 4.7 WER, CallHome에서 8.3 WER를 달성한다.
SpeechStew는 WSJ에서 1.3 WER를 달성한다.
SpeechStew 1B가 LibriLight 사전 학습으로 100M 모델 대비 일부 작업에서 성능을 향상시키고 CHiME-6로의 강력한 전이를 보이며(미세조정: CHiME-6 eval에서 38.9 WER)
제로샷 CHiME-6(SpeechStew 1B)은 eval에서 53.7 WER, dev에서 39.2로 나타나며, 미세조정 시 eval에서 38.9 WER로 개선된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.