Skip to main content
QUICK REVIEW

[논문 리뷰] SpeechStew: Simply Mix All Available Speech Recognition Data to Train One Large Neural Network

William Chan, Daniel Park|arXiv (Cornell University)|2021. 04. 05.
Speech Recognition and Synthesis참고 문헌 54인용 수 75
한 줄 요약

SpeechStew는 여러 공개 ASR 데이터셋을 혼합하여 하나의 대형 엔드투엔드 모델을 훈련시키고, 외부 언어 모델 없이 최첨단 또는 거의 최첨단 결과를 달성하며 CHiME-6에 대한 강력한 전이 학습을 보인다.

ABSTRACT

We present SpeechStew, a speech recognition model that is trained on a combination of various publicly available speech recognition datasets: AMI, Broadcast News, Common Voice, LibriSpeech, Switchboard/Fisher, Tedlium, and Wall Street Journal. SpeechStew simply mixes all of these datasets together, without any special re-weighting or re-balancing of the datasets. SpeechStew achieves SoTA or near SoTA results across a variety of tasks, without the use of an external language model. Our results include 9.0\% WER on AMI-IHM, 4.7\% WER on Switchboard, 8.3\% WER on CallHome, and 1.3\% on WSJ, which significantly outperforms prior work with strong external language models. We also demonstrate that SpeechStew learns powerful transfer learning representations. We fine-tune SpeechStew on a noisy low resource speech dataset, CHiME-6. We achieve 38.9\% WER without a language model, which compares to 38.6\% WER to a strong HMM baseline with a language model.

연구 동기 및 목표

  • 다양하고 공개적으로 이용 가능한 데이터셋을 재가중치 부여나 도메인 특화 조정 없이 활용하여 엔드-투-엔드 ASR의 일반화 향상을 모티브로 삼는다.
  • 단일 모델을 100M 또는 1B 매개변수로 확장하는 간단한 다도메인 학습 레시피를 제안한다.
  • 사전 학습 모델을 저자원, 노이즈가 많은 데이터셋(CHiME-6)에서 미세조정하여 전이 학습을 시연한다.
  • 추론 시 외부 언어 모델을 사용하지 않고 광범위한 작업에 걸친 성능을 평가한다.

제안 방법

  • 단일 대형 Conformer-RNN-T 모델(100M 및 1B 매개변수 구성)을 훈련한다.
  • 데이터 재가중치 부여 없이 AMI, Common Voice, English Broadcast News, LibriSpeech, Switchboard/Fisher, TED-LIUM v3, WSJ를 결합한다.
  • 감독 학습 SpeechStew 훈련 전에 LibriLight에서 wav2vec 2.0으로 1B 모델을 사전 학습한다.
  • SpecAugment 및 Adam/Adafactor 옵티마이저와 평가를 위한 지수 이동 평균으로 대형 배치 학습을 사용한다.
  • 사전 학습된 SpeechStew를 CHiME-6에서 미세조정하여 전이 학습 능력을 시연한다.
  • 추론 시 외부 언어 모델은 사용하지 않는다.

실험 결과

연구 질문

  • RQ1단순히 여러 공개 음성 인식 데이터셋을 혼합하는 것만으로도 단일 대형 모델이 다양한 ASR 작업에서 외부 언어 모델 없이 최첨단 혹은 근접 최첨단의 결과를 달성할 수 있는가?
  • RQ2:
  • RQ3대형 다도메인 모델이 미세조정 후 저자원, 노이즈가 많은 데이터에서의 전이 학습 능력을 보존하는가?
  • RQ4wav2vec 사전 학습이 매우 큰 매개변수 수를 가지는 대형 감독 SpeechStew 모델과 어떻게 상호작용하는가?

주요 결과

  • SpeechStew는 AMI-IHM에서 9.0 WER, Common Voice에서 21.7 WER(100M 모델)을 달성한다.
  • SpeechStew는 LibriSpeech에서 12.1 WER(클린), 9.7 WER(구두점 보정 포함)를 달성한다.
  • SpeechStew는 Switchboard에서 4.7 WER, CallHome에서 8.3 WER를 달성한다.
  • SpeechStew는 WSJ에서 1.3 WER를 달성한다.
  • SpeechStew 1B가 LibriLight 사전 학습으로 100M 모델 대비 일부 작업에서 성능을 향상시키고 CHiME-6로의 강력한 전이를 보이며(미세조정: CHiME-6 eval에서 38.9 WER)
  • 제로샷 CHiME-6(SpeechStew 1B)은 eval에서 53.7 WER, dev에서 39.2로 나타나며, 미세조정 시 eval에서 38.9 WER로 개선된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.