Skip to main content
QUICK REVIEW

[논문 리뷰] Robust Speech Recognition via Large-Scale Weak Supervision

Alec Radford, Jong Wook Kim|arXiv (Cornell University)|2022. 12. 06.
Speech Recognition and Synthesis인용 수 1,135
한 줄 요약

Whisper는 680k 시간의 약하게 감독된 다국어 데이터로 학습하여 파인튜닝 없이도 제로샷 강건 음성 인식을 달성하고, 이는 감독 모델에 필적하며 강건성 면에서 인간 성능에 근접합니다.

ABSTRACT

We study the capabilities of speech processing systems trained simply to predict large amounts of transcripts of audio on the internet. When scaled to 680,000 hours of multilingual and multitask supervision, the resulting models generalize well to standard benchmarks and are often competitive with prior fully supervised results but in a zero-shot transfer setting without the need for any fine-tuning. When compared to humans, the models approach their accuracy and robustness. We are releasing models and inference code to serve as a foundation for further work on robust speech processing.

연구 동기 및 목표

  • 언어와 작업 전반에 걸쳐 강건하고 제로샷 음성 인식을 얻기 위해 대규모 약하게 감독된 사전 학습이 가능한지 탐구한다.
  • 디코더 미세조정 없이 표준 벤치마크에서 교차 도메인 강건성과 제로샷 전이를 평가한다.
  • 다국어 및 다중 작업 학습의 이점을 조사하고 분포 변화 하에서 인간 성능과 비교한다.
  • 강건한 음성 처리의 기반을 확립하기 위해 모델과 추론 코드를 공개한다.

제안 방법

  • 96개 언어의 기록과 번역 데이터를 포함하는 68만 시간의 오디오로 학습된 인코더-디코더 Transformer를 사용한다.
  • 전사, 번역, 음성 활성 탐지, 언어 식별 등 여러 작업을 특수 토큰이 있는 단일 시퀀스-투-시퀀스 목표로 표현한다.
  • 최소한의 전처리로 학습하고 기계 생성 전사를 줄이기 위한 필터링을 적용하며 학습을 위해 오디오를 30초 구간으로 분할한다.
  • 다양한 데이터세트에서 제로샷 설정으로 평가하여 분포 밖 강건성을 측정한다.
  • 나중의 대형 모델 변형에서 정규화(SpecAugment, 확률적 깊이, BPE 드롭아웃)으로 학습을 점진적으로 개선한다.

실험 결과

연구 질문

  • RQ1대규모 약하게 감독된 사전 학습이 언어와 작업 전반에 걸쳐 강건하고 제로샷 음성 인식을 가능하게 하는가?
  • RQ2다국어/다중 작업 사전 학습이 지도 학습 기준과 비교하여 교차 도메인 강건성과 제로샷 성능에 어떤 영향을 미치는가?
  • RQ3제로샷 Whisper 모델은 다양한 데이터세트에서 강건성 면에서 인간 성능에 얼마나 근접하는가?
  • RQ4데이터 품질 필터와 중복 제거가 모델 성능과 일반화에 어떤 영향을 미치는가?
  • RQ5Long-form 전사 및 소음 조건에서 Whisper의 성능은 전문 모델과 비교해 어떤가?

주요 결과

  • 제로샷 Whisper 모델은 분포 밖에서 평가될 때 LibriSpeech를 학습한 감독 모델에 비해 다수의 데이터세트에서 경쟁력 있거나 우수한 강건성을 보인다.
  • 평균적으로 제로샷 Whisper는 LibriSpeech 성능이 유사한 LibriSpeech 학습 기반 대비 LibriSpeech가 아닌 데이터세트에서 약 55.2%의 오류 감소를 보인다.
  • Whisper는 특히 분포 변화 및 소음 조건에서 인간의 강건성에 근접하거나 이를 추격하는 벤치마크를 다수 보유하고 있다.
  • 다국어 및 다중 작업 사전 학습은 언어 데이터 양과 제로샷 성능 간 강한 상관관계를 보이며, 언어 데이터 양이 작업별 번역 및 인식 성능을 다르게 예측한다.
  • Whisper는 다수의 데이터세트에서 상업용 및 오픈 소스 시스템에 비해 경쟁력 있는 성능으로 장문 전사 능력을 강하게 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.