QUICK REVIEW

[论文解读] Common Voice: A Massively-Multilingual Speech Corpus

Rosana Ardila, Megan Branson|arXiv (Cornell University)|Dec 13, 2019

Speech Recognition and Synthesis参考文献 6被引用 209

一句话总结

本文介绍 Common Voice——一个大型、众包、具多语言的语音语料库，在 CC0 下发布，并在多种语言上评估端到端 ASR 的迁移学习。

ABSTRACT

The Common Voice corpus is a massively-multilingual collection of transcribed speech intended for speech technology research and development. Common Voice is designed for Automatic Speech Recognition purposes but can be useful in other domains (e.g. language identification). To achieve scale and sustainability, the Common Voice project employs crowdsourcing for both data collection and data validation. The most recent release includes 29 languages, and as of November 2019 there are a total of 38 languages collecting data. Over 50,000 individuals have participated so far, resulting in 2,500 hours of collected audio. To our knowledge this is the largest audio corpus in the public domain for speech recognition, both in terms of number of hours and number of languages. As an example use case for Common Voice, we present speech recognition experiments using Mozilla's DeepSpeech Speech-to-Text toolkit. By applying transfer learning from a source English model, we find an average Character Error Rate improvement of 5.99 +/- 5.48 for twelve target languages (German, French, Italian, Turkish, Catalan, Slovenian, Welsh, Irish, Breton, Tatar, Chuvash, and Kabyle). For most of these languages, these are the first ever published results on end-to-end Automatic Speech Recognition.

研究动机与目标

推动一个可扩展的、开放的、具多语言能力的语音语料库，便于研究与开发。
描述基于众包的数据收集与验证流程及许可/授权情况。
详述语料库内容、语言覆盖范围和数据统计信息。
展示使用 DeepSpeech 的迁移学习进行多语种 ASR 的实验。
强调可重复性以及面向社区的扩展语言覆盖机制。

提出的方法

通过网页应用与移动应用进行众包数据收集以录制句子。
基于社区的验证，最多由三名验证者对音频-转录对进行投票；若投票出现错误，则采用多数规则。
音频以单声道 16 位 48 kHz MPEG-3 格式并采用 CC0 许可发布，以最大化网页可访问性与再用。
按语言将数据组织为 train/dev/test 分集，确保说话人不重叠。
语言添加工作流：翻译界面字符串并收集 5,000+ 的语言特定朗读提示；对于大型语言可选使用基于维基百科的提示；持续数据收集的句子收集器。
使用 Mozilla DeepSpeech v0.3.0 进行端到端 ASR 实验，采用从英语的迁移学习；对新语言头部冻结/拷贝层以及 Xavier 初始化；基于开发集损失进行早停。

实验结果

研究问题

RQ1当数据收集与验证完全众包时，一个大规模多语言语音语料库能有多么可扩展和可持续？
RQ2将来自预训练英语 ASR 模型的层迁移到目标语言对端到端 ASR 性能（字符错误率 CER）的影响是什么？
RQ3Common Voice 在已发布语言中的语言覆盖、数据平衡和说话人不重叠性特征是什么？
RQ4CC0 许可如何影响多语言 ASR 研究中的再利用性和可重复性？
RQ5在社区驱动的语音语料库中扩展语言支持时，会出现哪些实用指南？

主要发现

在发表时，Common Voice 是按时长和语言数计的最大的公共领域 ASR 语料库。
截至本论文，共有 38 种语言在收集数据，参与者超过 50,000 人，录制语音约 2,500 小时。
将最多四层英语 DeepSpeech 拷贝到目标语言可在若干语言上获得最佳 CER 改进，低资源语言尤为显著。
CER 改进因语言而异，与从零开始训练相比，使用迁移学习的若干语言显示出显著的降低。
语料库内容与验证工作流使得在低资源环境下进行跨语言研究与基准测试成为可能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。