[論文レビュー] Common Voice: A Massively-Multilingual Speech Corpus
本論文は Common Voice を紹介する。大規模でクラウドソースされた多言語の音声コーパスを CC0 の下で公開し、複数言語に対して転移学習によるエンドツーエンドASR を評価する。
The Common Voice corpus is a massively-multilingual collection of transcribed speech intended for speech technology research and development. Common Voice is designed for Automatic Speech Recognition purposes but can be useful in other domains (e.g. language identification). To achieve scale and sustainability, the Common Voice project employs crowdsourcing for both data collection and data validation. The most recent release includes 29 languages, and as of November 2019 there are a total of 38 languages collecting data. Over 50,000 individuals have participated so far, resulting in 2,500 hours of collected audio. To our knowledge this is the largest audio corpus in the public domain for speech recognition, both in terms of number of hours and number of languages. As an example use case for Common Voice, we present speech recognition experiments using Mozilla's DeepSpeech Speech-to-Text toolkit. By applying transfer learning from a source English model, we find an average Character Error Rate improvement of 5.99 +/- 5.48 for twelve target languages (German, French, Italian, Turkish, Catalan, Slovenian, Welsh, Irish, Breton, Tatar, Chuvash, and Kabyle). For most of these languages, these are the first ever published results on end-to-end Automatic Speech Recognition.
研究の動機と目的
- 研究開発のために拡張可能でオープン、多言語の音声コーパスを実現することを動機づける。
- クラウドソースデータ収集と検証パイプラインおよびライセンスを説明する。
- コーパスの内容、言語カバレッジ、データ統計を詳述する。
- DeepSpeechを用いた転移学習による多言語ASR実験を示す。
- 再現性と言語カバレージ拡張のためのコミュニティ指向の仕組みを強調する。
提案手法
- ウェブアプリとモバイルアプリによるクラウドソースデータ収集(本文中の文を録音しました)。
- 最大3人の検証者が音声-文字対を投票し、投票にバグがあった場合は多数決ルールを適用。
- ウェブアクセシビリティと再利用性を最大化するため、音声をモノラル16ビット48 kHz MPEG-3としてCC0ライセンスで公開。
- 言語ごとに speaker-disjoint セットを確保した訓練/開発/テストの分割へデータを整理。
- 言語追加ワークフロー: UI の文字列を翻訳し、5,000+語の言語固有読み上げプロンプトを収集;大規模言語向けには任意の Wikipedia ベースのプロンプトを用意;継続的データ収集のため Sentence Collector を活用。
- English からの転移学習を用いた Mozilla DeepSpeech v0.3.0 によるエンドツーエンドASR実験;新言語ヘッドの層を凍結/コピー、Xavier 初期化で実装;開発損失に基づく早期停止。
実験結果
リサーチクエスチョン
- RQ1データ収集と検証がクラウドソースで行われる場合、非常に多言語の音声コーパスはどの程度スケーラブルで持続可能になり得るか?
- RQ2事前学習済みの英語ASRモデルからターゲット言語へ層を転移することは、エンドツーエンドASRの性能(文字誤り率)にどのような影響を与えるか?
- RQ3公開言語を跨ぐCommon Voice の言語カバレッジ、データバランス、話者分離性の特徴は?
- RQ4CC0 ライセンスは多言語ASR研究の再利用性と再現性にどのように影響するか?
- RQ5コミュニティ主導の音声コーパスにおける言語サポート拡張の実践的ガイドラインは何か?
主な発見
| 言語 | 英語からコピーした層の数 | なし | 1 | 2 | 3 | 4 | 5 |
|---|---|---|---|---|---|---|---|
| sl | 0 | 23.35 | 21.65 | 26.44 | 19.09 | 15.35 | 17.96 |
| ga | 0 | 31.83 | 31.01 | 32.20 | 27.50 | 25.42 | 24.98 |
| cv | 0 | 48.10 | 47.10 | 44.58 | 42.75 | 27.21 | 31.94 |
| br | 0 | 21.47 | 19.16 | 20.01 | 18.06 | 15.99 | 18.42 |
| tr | 0 | 34.66 | 34.12 | 34.83 | 31.79 | 27.55 | 29.74 |
| it | 0 | 40.91 | 42.65 | 42.82 | 36.89 | 33.63 | 35.10 |
| cy | 0 | 34.15 | 31.91 | 33.63 | 30.13 | 28.75 | 30.38 |
| tt | 0 | 32.61 | 31.43 | 30.80 | 27.79 | 26.42 | 28.63 |
| ca | 0 | 38.01 | 35.21 | 39.02 | 35.26 | 33.83 | 36.41 |
| fr | 0 | 43.33 | 43.26 | 43.51 | 43.24 | 43.20 | 43.19 |
| kab | 0 | 25.76 | 25.50 | 26.83 | 25.25 | 24.92 | 25.28 |
| de | 0 | 43.76 | 43.69 | 43.62 | 43.60 | 43.76 | 43.69 |
- Common Voice は公的領域のASR用コーパスとして、公開時点で時間数と言語数の面で最大規模であった。
- 論文時点で38言語がデータを収集しており、参加者は5万以上、記録音声は約2,500時間。
- 英語ベースの DeepSpeech の層を最大4層転移すると、複数言語で最も良い CER 改善を得られ、低リソース言語で顕著な改善がみられる。
- CER の改善は言語により異なり、ゼロから学習するよりも転移学習を用いた場合に複数の言語で顕著な低減が見られる。
- コーパスの内容と検証ワークフローは、低資源環境での跨言語研究とベンチマークを可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。