QUICK REVIEW

[论文解读] Scaling Speech Technology to 1,000+ Languages

Vineel Pratap, Andros Tjandra|arXiv (Cornell University)|May 22, 2023

Speech Recognition and Synthesis被引用 115

一句话总结

Massively Multilingual Speech (MMS) 项目通过构建标注和无标注语料库、对大型自监督模型进行预训练，以及在 1,107、1,107 和 4,017 种语言上提供 ASR、TTS 和 LID，使语音技术覆盖超过 1,000 种语言。

ABSTRACT

Expanding the language coverage of speech technology has the potential to improve access to information for many more people. However, current speech technology is restricted to about one hundred languages which is a small fraction of the over 7,000 languages spoken around the world. The Massively Multilingual Speech (MMS) project increases the number of supported languages by 10-40x, depending on the task. The main ingredients are a new dataset based on readings of publicly available religious texts and effectively leveraging self-supervised learning. We built pre-trained wav2vec 2.0 models covering 1,406 languages, a single multilingual automatic speech recognition model for 1,107 languages, speech synthesis models for the same number of languages, as well as a language identification model for 4,017 languages. Experiments show that our multilingual speech recognition model more than halves the word error rate of Whisper on 54 languages of the FLEURS benchmark while being trained on a small fraction of the labeled data.

研究动机与目标

将语音技术的语言覆盖范围从约 100 种扩展到 1,107+ 种用于 ASR 的语言，同样的规模扩展用于 TTS 和 LID。
利用自监督学习（wav2vec 2.0）以及两个新数据集（MMS-lab 和 MMS-unlab），在数千种语言上实现多语言建模。
通过与现有的覆盖范围广的数据集与基准进行比较，评估跨语言迁移和数据质量。
提供开源的 MMS 模型，并在多语言语音任务上展示改进。

提出的方法

创建 MMS-lab：来自圣经朗读、在 1,107 种语言中经过仔细对齐和筛选的 44.7K 小时成对语音文本数据。
创建 MMS-unlab：Global Recordings Network 提供的跨 3,809 种语言的 7.7K 小时未标注语音数据。
在 1,406 种语言上对 wav2vec 2.0 表征进行预训练，构建广泛的多语言声学模型。
对 1,107 种语言进行多语言 ASR 的微调，为 1,107 种语言构建 TTS，并为 4,017 种语言开发 LID。
使用基于 CTC 的多语言对齐管线，结合 GPU 加速的强制对齐以及对嘈杂转录文本的稳健处理标记（<star>）以适应。
在基准测试（如 FLEURS）上评估，并与先前方法（CMU Wilderness、ASR-2K）进行比较以量化收益。

实验结果

研究问题

RQ1在 1,406 种语言上的 wav2vec 2.0 预训练是否能提升 ASR 和 LID 的覆盖范围，超越以往工作？
RQ2成对的 MMS-lab 数据在 1,107 种语言的 ASR 和 TTS 中能有多好，相较于现有数据集？
RQ3在标准基准上，相对于现有广覆盖系统，多语言 ASR 的准确性（CER/WER）的增益是多少？
RQ4MMS-lab 数据质量和强制对齐管线如何影响数千种语言的下游语音任务？

主要发现

在测试语言中，以 MMS-lab 训练的多语言 ASR 的 CER 低于基于 CMU Wilderness 的流水线，改进幅度因语言而异，为 2.1%–4.7% 的 CER。
MMS-lab 数据生成的 ASR 模型质量优于 CMU Wilderness 协议，同时保留了更多的训练数据（例如显示的泰卢固语-英语示例）。
展示了覆盖 4,017 种语言的语言识别模型，超出先前的语言覆盖基准。
与在同一数据量上训练的 Common Voice 基线相比，MMS-lab 训练的模型在 FLEURS 开发集的 18 种语言上表现竞争力。
在 1,406 种语言上进行预训练并针对 1,107 种语言微调，显著扩展范围，超越先前的模型如 XLS-R（128 种语言）和 Whisper 的覆盖程度。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。