[논문 리뷰] Common Voice: A Massively-Multilingual Speech Corpus
이 논문은 CC0 하에 공개된 대규모 다국어 다중 음성 말뭉치인 Common Voice를 제시하고, 여러 언어에서 엔드투엔드 ASR의 전이 학습을 평가한다.
The Common Voice corpus is a massively-multilingual collection of transcribed speech intended for speech technology research and development. Common Voice is designed for Automatic Speech Recognition purposes but can be useful in other domains (e.g. language identification). To achieve scale and sustainability, the Common Voice project employs crowdsourcing for both data collection and data validation. The most recent release includes 29 languages, and as of November 2019 there are a total of 38 languages collecting data. Over 50,000 individuals have participated so far, resulting in 2,500 hours of collected audio. To our knowledge this is the largest audio corpus in the public domain for speech recognition, both in terms of number of hours and number of languages. As an example use case for Common Voice, we present speech recognition experiments using Mozilla's DeepSpeech Speech-to-Text toolkit. By applying transfer learning from a source English model, we find an average Character Error Rate improvement of 5.99 +/- 5.48 for twelve target languages (German, French, Italian, Turkish, Catalan, Slovenian, Welsh, Irish, Breton, Tatar, Chuvash, and Kabyle). For most of these languages, these are the first ever published results on end-to-end Automatic Speech Recognition.
연구 동기 및 목표
- 연구와 개발을 위해 확장 가능하고 개방된 다국어 음성 말뭉치를 마련하는 것을 동기로 삼는다.
- 크라우드소스 데이터 수집 및 검증 파이프라인과 라이선싱을 설명한다.
- 말뭉치 내용, 언어 커버리지, 데이터 통계를 자세히 설명한다.
- DeepSpeech를 사용한 전이 학습을 통한 다국어 ASR 실험을 시연한다.
- 재현성 및 언어 커버리지를 확장하기 위한 커뮤니티 지향 메커니즘을 강조한다.
제안 방법
- 웹 앱과 모바일 앱을 통한 문장 녹음을 위한 크라우드소싱 데이터 수집.
- 최대 세 명의 검증자가 오디오-대본 쌍에 대해 투표하는 커뮤니티 기반 검증; 투표 오류 발생 시 다수결 규칙.
- 오디오를 모노 16비트 48 kHz MPEG-3로 CC0 라이선스로 공개하여 웹 접근성과 재사용을 극대화한다.
- 언어별로 화자 분리 세트를 보장하는 train/dev/test 분할로 데이터를 구성한다.
- 언어 추가 워크플로우: UI 문자열 번역 및 5,000+ 개의 언어별 읽기 프롬프트를 수집; 대형 언어의 경우 선택적 위키피디아 기반 프롬프트; 진행 중인 데이터를 위한 Sentence Collector.
- 영어로부터의 전이 학습을 이용한 Mozilla DeepSpeech v0.3.0으로 엔드투엔드 ASR 실험; 새로운 언어 헤드를 위한 계층 고정/복사 및 Xavier 초기화; 개발 손실에 따른 얼리 스톱.
실험 결과
연구 질문
- RQ1데이터 수집 및 검증이 크라우드소싱될 때 대규모 다국어 음성 말뭉치는 얼마나 확장 가능하고 지속 가능할까?
- RQ2사전 훈련된 영어 ASR 모델의 계층을 대상 언어로 이전할 때 엔드투엔드 ASR 성능(문자 오류율)에 미치는 영향은?
- RQ3공개된 언어들에 걸친 Common Voice의 언어 커버리지, 데이터 균형, 화자 분리 특성은 어떠한가?
- RQ4CC0 라이선스가 다국어 ASR 연구의 재사용성과 재현성에 어떤 영향을 미치는가?
- RQ5커뮤니티 주도 말뭉치의 언어 지원 확장을 위한 실용적 지침은 무엇이 생겨날까?
주요 결과
| Language | Number of Layers Copied from English | None | 1 | 2 | 3 | 4 | 5 |
|---|---|---|---|---|---|---|---|
| sl | 0 | 23.35 | 21.65 | 26.44 | 19.09 | 15.35 | 17.96 |
| ga | 0 | 31.83 | 31.01 | 32.20 | 27.50 | 25.42 | 24.98 |
| cv | 0 | 48.10 | 47.10 | 44.58 | 42.75 | 27.21 | 31.94 |
| br | 0 | 21.47 | 19.16 | 20.01 | 18.06 | 15.99 | 18.42 |
| tr | 0 | 34.66 | 34.12 | 34.83 | 31.79 | 27.55 | 29.74 |
| it | 0 | 40.91 | 42.65 | 42.82 | 36.89 | 33.63 | 35.10 |
| cy | 0 | 34.15 | 31.91 | 33.63 | 30.13 | 28.75 | 30.38 |
| tt | 0 | 32.61 | 31.43 | 30.80 | 27.79 | 26.42 | 28.63 |
| ca | 0 | 38.01 | 35.21 | 39.02 | 35.26 | 33.83 | 36.41 |
| fr | 0 | 43.33 | 43.26 | 43.51 | 43.24 | 43.20 | 43.19 |
| kab | 0 | 25.76 | 25.50 | 26.83 | 25.25 | 24.92 | 25.28 |
| de | 0 | 43.76 | 43.69 | 43.62 | 43.60 | 43.76 | 43.69 |
- Common Voice는 게시 시점에서 시간당/언어 수 측면에서 ASR을 위한 가장 큰 공용 도메인 말뭉치이다.
- 논문 기준으로 38개 언어가 데이터를 수집 중이었고, 5만 명이 넘는 참가자와 약 2,500시간의 녹음 음성이다.
- 대상 언어에 최대 네 개의 영어 기반 DeepSpeech 계층을 이전하면 여러 언어에서 CER 개선이 가장 잘 나타나며, 자원이 적은 언어에서 특히 이점이 크다.
- CER 개선은 언어에 따라 다르며, 학습을 처음부터 하는 것보다 전이 학습을 사용할 때 여러 언어에서 상당한 감소를 보였다.
- 말뭉치 내용 및 검증 워크플로우는 저자원 환경에서의 교차 언어 연구 및 벤치마킹을 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.