QUICK REVIEW

[논문 리뷰] Scaling Speech Technology to 1,000+ Languages

Vineel Pratap, Andros Tjandra|arXiv (Cornell University)|2023. 05. 22.

Speech Recognition and Synthesis인용 수 115

한 줄 요약

대규모 다국어 음성(MMS) 프로젝트는 라벨이 붙은 말뭉치와 비라벨드 코퍼스를 구축하고, 대규모 자기지도 모델을 사전 학습한 뒤 ASR, TTS, LID를 각각 1,107개, 1,107개, 4,017개 언어에 제공하여 음성 기술을 1,000개 이상의 언어로 확장합니다.

ABSTRACT

Expanding the language coverage of speech technology has the potential to improve access to information for many more people. However, current speech technology is restricted to about one hundred languages which is a small fraction of the over 7,000 languages spoken around the world. The Massively Multilingual Speech (MMS) project increases the number of supported languages by 10-40x, depending on the task. The main ingredients are a new dataset based on readings of publicly available religious texts and effectively leveraging self-supervised learning. We built pre-trained wav2vec 2.0 models covering 1,406 languages, a single multilingual automatic speech recognition model for 1,107 languages, speech synthesis models for the same number of languages, as well as a language identification model for 4,017 languages. Experiments show that our multilingual speech recognition model more than halves the word error rate of Whisper on 54 languages of the FLEURS benchmark while being trained on a small fraction of the labeled data.

연구 동기 및 목표

음성 기술의 언어 적용 범위를 ~100개 언어 이상에서 ASR의 경우 1,107+ 언어로, TTS 및 LID의 경우도 유사한 규모로 확장한다.
자기지도 학습(wav2vec 2.0)과 새로운 두 데이터셋(MMS-lab 및 MMS-unlab)을 활용하여 수천 개의 언어에 걸친 다국어 모델링을 가능하게 한다.
기존의 광범위 커버리지 데이터셋 및 벤치마크와의 비교를 통해 교차언어 전이 및 데이터 품질을 평가한다.
오픈 소스 MMS 모델을 제공하고 다국어 음성 작업에서의 향상을 시연한다.

제안 방법

Bible 읽기를 통해 1,107개 언어의 44.7K 시간의 말뭉치-음성 데이터(MMS-lab)를 신중하게 정렬하고 필터링하여 만든다.
Global Recordings Network의 3,809개 언어에서 수집한 7.7K 시간의 비라벨드 음성 데이터(MMS-unlab)를 만든다.
1,406개 언어에서 wav2vec 2.0 표현을 사전 학습시켜 광범위한 다국어 음향 모델을 구축한다.
1,107개 언어에 대해 다국어 ASR을 미세 조정하고, 1,107개 언어에 대한 TTS를 구축하고, 4,017개 언어에 대한 LID를 개발한다.
노이즈가 많은 전사본을 수용하기 위해 GPU 가속 강제 정렬 및 견고한 처리 토큰(<star>)을 활용한 다국어 정렬 파이프라인(CTC 기반)을 사용한다.
벤치마크(FLEURS 등)와 비교하고 이전 접근법(CMU Wilderness, ASR-2K)과의 비교를 통해 이익을 수치로 제시한다.

실험 결과

연구 질문

RQ11,406개 언어에서의 wav2vec 2.0 사전 학습이 기존 연구를 넘어 ASR 및 LID 커버리지를 개선할 수 있는가?
RQ2MMS-lab 데이터에서 1,107개 언어에 대해 기존 데이터셋과 비교하여 ASR 및 TTS를 얼마나 잘 지원하는가?
RQ3표준 벤치마크에서 기존 광범위 커버리지 시스템에 비해 다국어 ASR 정확도(CER/WER)의 이득은 얼마나 되는가?
RQ4MMS-lab 데이터 품질과 강제 정렬 파이프라인이 수천 개의 언어에 걸친 다운스트림 음성 작업에 어떤 영향을 미치는가?

주요 결과

MMS-lab에서 학습된 다국어 ASR은 테스트된 언어들에서 CMU Wilderness 기반 파이프라인보다 낮은 CER을 달성하며, 언어에 따라 2.1%~4.7% CER 개선이 나타난다.
MMS-lab 데이터는 CMU Wilderness 프로토콜보다 더 높은 품질의 ASR 모델을 제공하되 더 많은 학습 데이터를 유지한다(예: Telugu English 예시가 제시됨).
4,017개 언어를 커버하는 언어 식별 모델이 시연되었으며, 이전의 언어 커버리지 벤치마크를 넘는다.
MMS-lab-학습한 모델은 같은 데이터 양으로 학습된 Common Voice 기반 벤치마크와 비교해 18개 언어의 FLEURS dev 세트에서 경쟁력 있는 성능을 보인다.
1,406개 언어에서의 사전 학습과 1,107개 언어에 대한 미세 조정은 XLS-R(128개 언어) 및 Whisper의 커버리지와 같은 기존 모델을 훨씬 능가하는 범위를 확장한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.