Skip to main content
QUICK REVIEW

[論文レビュー] From Scarcity to Scale: A Release-Level Analysis of the Pashto Common Voice Dataset

Jandad Jahani, Mursal Dawodi|arXiv (Cornell University)|Feb 15, 2026
Speech Recognition and Synthesis被引用数 0
ひとこと要約

要約: 本論文は Mozilla Common Voice における Pashto のリリースレベル監査を提供し、急速な成長を通じて 2,768.7 時間、うち検証済み 975.89 時間、検証スループット、寄与者の不平等性(ジニ係数 = 0.941)、およびメタデータの完全性を分析しています。

ABSTRACT

Large, openly licensed speech datasets are essential for building automatic speech recognition (ASR) systems, yet many widely spoken languages remain underrepresented in public resources. Pashto, spoken by more than 60 million people, has historically lacked large-scale openly licensed speech data suitable for modern ASR development. This paper presents a release-level analysis of the Pashto component of the Mozilla Common Voice corpus, focusing on version 24.0 (December 2025) and contextualizing trends across major releases. We document rapid growth from 1.49 recorded hours in mid-2023 to 2,768.7 total hours in 2025, including 975.89 validated hours available for supervised ASR training. Beyond scale, we analyze validation throughput, contributor participation inequality, demographic metadata completeness, and sentence-level concentration in the validated subset. We find that participation is extremely concentrated (Gini = 0.941), age representation is strongly skewed toward young adults, and 41.97\% of clips lack self-reported gender labels, limiting subgroup auditing based on metadata. At the textual level, prompt reuse is moderate: 35.88\% of unique sentences account for 50\% of validated clips, suggesting that structural concentration is driven primarily by uneven contributor activity rather than dominance of a small prompt set. These results provide a quantitative audit of a rapidly scaling low-resource speech corpus and highlight practical priorities for improving dataset maturity, including expanded validation capacity and broader demographic participation.

研究の動機と目的

  • scarcity から大規模利用可能性へ、主要リリースを通じた Pashto Common Voice コーパスの進化を文書化すること。
  • 検証ダイナミクス、寄与者参加の不平等性、人口統計メタデータの完全性、検証済みサブセットにおける文レベルの集中を定量化すること。
  • データ構造とメタデータ欠如に起因する堅牢性と公正性を含む ASR 開発への示唆を検討すること。

提案手法

  • 公式の Common Voice Pashto データカード(v14.0, v20.0, v24.0)からリリースレベルの統計を計算・比較する。
  • 検証パーティション(Validated、Invalidated、Other、Reported)と検証済みサブセットから導出された公式の Train/Dev/Test を分析する。
  • 話者(client_id)別の検証クリップに対して Lorenz 曲線とジニ係数を用いて参加不平等を測定する。
  • 年齢と性別の人口統計メタデータの完全性を評価し、欠損値を Undefined として扱う。
  • 検証済みクリップの分布をユニークな文ごとに調べて文レベルの集中を評価する。
Figure 1: Growth of the Pashto Common Voice corpus across major releases, showing total and validated hours from June 2023 (v14.0) to December 2025 (v24.0) on a logarithmic scale.
Figure 1: Growth of the Pashto Common Voice corpus across major releases, showing total and validated hours from June 2023 (v14.0) to December 2025 (v24.0) on a logarithmic scale.

実験結果

リサーチクエスチョン

  • RQ1リリース間で Pashto Common Voice コーパスは規模と検証済みデータの点でどのように進化してきたか?
  • RQ2検証済みサブセットの構造特性(寄与者の不平等性や人口統計メタデータの完全性を含む)はどうか?
  • RQ3文レベルの繰り返しは話者レベルの集中とどのように関連し、ASR の訓練に対してどんな影響を及ぼすか?
  • RQ4これらの構造特性が Pashto の ASR の堅牢性と公正性に実務的にどんな影響を及ぼすか?

主な発見

Language (v24.0)Total HoursValidated HoursValidation RateClipsSpeakers
Pashto (ps)2768.70975.8935.2%2,407,7996,654
Persian (fa)428.61373.6687.2%390,1344,639
Urdu (ur)302.0281.4827.0%252,899498
Uzbek (uz)265.45100.6937.9%229,8372,281
Arabic (ar)157.2891.7458.3%136,0401,651
  • Pashto サブセットは 2023年中頃の総計 1.49 時間から、2025年12月には総計 2,768.7 時間へ、うち検証済み 975.89 時間へと成長した。
  • 検証のスループットは録音成長に遅れ、総録音時間の 35.2% が検証済みで、検証を待つ Other カテゴリのクリップが 1,571,559 件残っている。
  • 寄与者の不平等性は極端で、話者は 6,654 人いるが、検証済みクリップの寄与にはジニ係数 0.941。
  • 人口統計メタデータは不完全で、性別ラベルが Undefined である割合が 41.97%、二十代前後への年齢の偏りが強く(20代が 59.53%)、高年齢の話者の表現は最小限。
  • 検証済みクリップのうち公式の Train/Dev/Test スプリットに含まれるのは 19.91% のみであり、研究者は検証済みプールから独自の訓練集合を構築する必要がある。
  • ユニークな文の 35.88% が検証済みクリップの 50% をカバーしており、プロンプトの再利用は中程度で、集中は主に貢献者の活動を反映しており、限られたプロンプト集合によるものではない。
Figure 2: Lorenz curve of validated clip contributions across contributors in the Pashto Common Voice v24.0 release. The corresponding Gini coefficient (0.941) indicates a highly unequal, long-tail contribution structure. The Gini coefficient was computed over the distribution of validated clip coun
Figure 2: Lorenz curve of validated clip contributions across contributors in the Pashto Common Voice v24.0 release. The corresponding Gini coefficient (0.941) indicates a highly unequal, long-tail contribution structure. The Gini coefficient was computed over the distribution of validated clip coun

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。