QUICK REVIEW

[論文レビュー] Scaling Speech Technology to 1,000+ Languages

Vineel Pratap, Andros Tjandra|arXiv (Cornell University)|May 22, 2023

Speech Recognition and Synthesis被引用数 115

ひとこと要約

Massively Multilingual Speech (MMS) プロジェクトは、ラベル付きおよびラベルなしコーパスを構築し、大規模な自己教師付きモデルを事前学習させ、ASR、TTS、LIDをそれぞれ1,107言語、1,107言語、4,017言語で提供することで、言語技術を1,000を超える言語へ拡張します。

ABSTRACT

Expanding the language coverage of speech technology has the potential to improve access to information for many more people. However, current speech technology is restricted to about one hundred languages which is a small fraction of the over 7,000 languages spoken around the world. The Massively Multilingual Speech (MMS) project increases the number of supported languages by 10-40x, depending on the task. The main ingredients are a new dataset based on readings of publicly available religious texts and effectively leveraging self-supervised learning. We built pre-trained wav2vec 2.0 models covering 1,406 languages, a single multilingual automatic speech recognition model for 1,107 languages, speech synthesis models for the same number of languages, as well as a language identification model for 4,017 languages. Experiments show that our multilingual speech recognition model more than halves the word error rate of Whisper on 54 languages of the FLEURS benchmark while being trained on a small fraction of the labeled data.

研究の動機と目的

ASR の言語カバレッジを約100言語を超えて1,107+言語へ拡大し、TTSとLIDも同様の規模を目指す。
自己教師あり学習（wav2vec 2.0）と新しい2つのデータセット（MMS-lab と MMS-unlab）を活用し、数千言語にわたる多言語モデリングを可能にする。
既存の広域カバレッジデータセットやベンチマークと比較して、言語間転移とデータ品質を評価する。
オープンソースの MMS モデルを提供し、多言語音声タスクでの改善を示す。

提案手法

MMS-lab を作成：聖書の朗読から得られる1,107言語の音声-テキスト対で、慎重な整列とフィルタリングを行い、44.7K 時間のペアデータを作成。
MMS-unlab を作成：Global Recordings Network から3,809言語にまたがるラベルなし音声データ7.7K時間。
1,406言語で wav2vec 2.0 表現を事前学習し、広範な多言語音響モデルを構築。
1,107言語の多言語ASRをファインチューニング、1,107言語のTTSを構築、4,017言語のLIDを開発。
ノイズの多い転写にも対応するため、GPU加速の強制アラインメントと堅牢なハンドリングトークン（<star>）を用いた、CTCベースの多言語アライメントパイプラインを使用。
ベンチマーク（例：FLEURS）に対して評価し、従来の手法（CMU Wilderness, ASR-2K）と比較して得られる改善を定量化。

実験結果

リサーチクエスチョン

RQ11,406言語での wav2vec 2.0 事前学習は、従来の研究を超えて ASR および LID のカバレッジを向上させることができるか？
RQ2既存データセットと比較して、MMS-lab の対ペアデータは1,107言語のASRとTTSをどの程度サポートできるか？
RQ3標準ベンチマークで、既存の広域カバレッジシステムと比較して多言語ASRの精度（CER/WER）はどの程度向上するか？
RQ4MMS-lab データ品質と強制アラインメントパイプラインが、何千語言語にも及ぶ下流の音声タスクにどのように影響するか？

主な発見

MMS-lab で学習した多言語ASRは、テストされた言語のうちCMU Wildernessベースのパイプラインより低いCERを達成し、言語によって2.1%–4.7%のCER改善を示す。
MMS-labデータは、CMU Wildernessプロトコルより高品質のASRモデルを生み出しつつ、トレーニングデータをより多く保持する（例として Telugu English の例が示される）。
4,017 の言語カバレッジを備えた言語識別モデルを実証し、従来の言語カバレッジベンチマークを上回る。
MMS-lab で訓練されたモデルは、同量のデータで訓練された Common Voice ベースラインと比較して、18言語のFLEURS dev セットで競争力のある性能を示す。
1,406言語での事前学習と1,107言語のファインチューニングは、XLS-R（128言語）や Whisper のカバレッジなど、従来のモデルを大きく超えた範囲を実現する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。