[논문 리뷰] From Scarcity to Scale: A Release-Level Analysis of the Pashto Common Voice Dataset
이 논문은 Mozilla Common Voice의 Pashto에 대한 발표 수준의 감사를 제공하며 2,768.7 시간으로 급속히 증가했고 확인된 시간이 975.89 시간, 검증 처리량 및 기여자 불평등(Gini=0.941), 메타데이터 완전성 분석을 상세히 다룹니다.
Large, openly licensed speech datasets are essential for building automatic speech recognition (ASR) systems, yet many widely spoken languages remain underrepresented in public resources. Pashto, spoken by more than 60 million people, has historically lacked large-scale openly licensed speech data suitable for modern ASR development. This paper presents a release-level analysis of the Pashto component of the Mozilla Common Voice corpus, focusing on version 24.0 (December 2025) and contextualizing trends across major releases. We document rapid growth from 1.49 recorded hours in mid-2023 to 2,768.7 total hours in 2025, including 975.89 validated hours available for supervised ASR training. Beyond scale, we analyze validation throughput, contributor participation inequality, demographic metadata completeness, and sentence-level concentration in the validated subset. We find that participation is extremely concentrated (Gini = 0.941), age representation is strongly skewed toward young adults, and 41.97\% of clips lack self-reported gender labels, limiting subgroup auditing based on metadata. At the textual level, prompt reuse is moderate: 35.88\% of unique sentences account for 50\% of validated clips, suggesting that structural concentration is driven primarily by uneven contributor activity rather than dominance of a small prompt set. These results provide a quantitative audit of a rapidly scaling low-resource speech corpus and highlight practical priorities for improving dataset maturity, including expanded validation capacity and broader demographic participation.
연구 동기 및 목표
- Scarcity에서 대규모 가용성으로 진화한 Pashto Common Voice 말뭉치의 진화를 주요 릴리스 전반에서 문서화한다.
- 검증 동역학, 기여자 참여 불평등, 인구통계 메타데이터 완전성, 검증 하위집합의 문장 수준 집중도를 정량화한다.
- 데이터 구조 및 메타데이터 격차로 인한 강건성 및 공정성 고려사항을 포함한 ASR 개발에 대한 시사점을 논의한다.
제안 방법
- 공식 Common Voice Pashto 데이터 카드(v14.0, v20.0, v24.0)에서 발표 수준 통계를 계산하고 비교한다.
- 검증 하위집합으로 파생된 공식 Train/Dev/Test 분할 및 검증 파트리션(Validated, Invalidated, Other, Reported)을 분석한다.
- 발화자(client_id)별 검증된 클립의 로렌츠 곡선과 지니 계수로 참여 불평등을 측정한다.
- 나이 및 성별에 대한 인구통계 메타데이터 완전성을 평가하되 누락 값을 Undefined로 처리한다.
- 고유 문장별로 검증된 클립의 분포를 조사하여 문장 수준 집중도를 평가한다.

실험 결과
연구 질문
- RQ1릴리스 간 Pashto Common Voice 말뭉치가 규모와 검증 데이터 측면에서 어떻게 진화했는가?
- RQ2검증 하위집합의 구조적 특성(참여 불평등 및 인구통계 메타데이터 완전성)은 어떠한가?
- RQ3문장 수준의 반복이 화자 수준 집중도와 어떤 관계가 있으며, 이는 ASR 학습에 어떤 시사점을 가지는가?
- RQ4이러한 구조적 특성들이 Pashto의 ASR 강건성 및 공정성에 주는 실용적 시사점은 무엇인가?
주요 결과
| Language (v24.0) | Total Hours | Validated Hours | Validation Rate | Clips | Speakers |
|---|---|---|---|---|---|
| Pashto (ps) | 2768.70 | 975.89 | 35.2% | 2,407,799 | 6,654 |
| Persian (fa) | 428.61 | 373.66 | 87.2% | 390,134 | 4,639 |
| Urdu (ur) | 302.02 | 81.48 | 27.0% | 252,899 | 498 |
| Uzbek (uz) | 265.45 | 100.69 | 37.9% | 229,837 | 2,281 |
| Arabic (ar) | 157.28 | 91.74 | 58.3% | 136,040 | 1,651 |
- Pashto 하위집합은 1.49 총 시간에서 시작하여 (2023년 중반) 2,768.7 총 시간으로 증가했고 검증된 시간은 975.89 시간이다.
- 검증 처리량은 녹음 증가보다 느리며 전체 녹음 시간의 35.2%가 검증되었고 Other 카테고리에서 검증을 기다리는 1,571,559 클립이 남아 있다.
- 기여자 불평등은 극단적이며 6,654명의 화자가 있지만 검증된 클립 기여에 대한 지니 계수는 0.941이다.
- 인구통계 메타데이터는 불완전하며 성별 라벨의 Undefined 비율이 41.97%, 20대에 대한 편향이 강하고 60대 이상 화자의 표현은 미미하다.
- 검증된 클립의 19.91%만 공식 Train/Dev/Test 분할에 포함되어 있어 연구자들이 검증 풀에서 맞춤형 학습 집합을 구성해야 함을 시사한다.
- 고유 문장의 35.88%가 검증된 클립의 50%를 차지하므로 프롬프트 재사용이 보통이며 집중도는 주로 기여자 활동을 반영하고 작은 프롬프트 세트의 반영은 아님.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.