QUICK REVIEW

[论文解读] WenetSpeech: A 10000+ Hours Multi-domain Mandarin Corpus for Speech Recognition

Binbin Zhang, Hang Lv|arXiv (Cornell University)|Oct 7, 2021

Speech Recognition and Synthesis被引用 32

一句话总结

介绍 WenetSpeech，这是一个 22435 小时的多领域普通话语料库，包含 10005 小时的强标签、2478 小时的弱标签，以及一个评估集；提出一个基于 OCR 和 ASR 的管线，具备端到端标签错误检测，并在 Kaldi、ESPnet 和 WeNet 上给出基线基准。

ABSTRACT

In this paper, we present WenetSpeech, a multi-domain Mandarin corpus consisting of 10000+ hours high-quality labeled speech, 2400+ hours weakly labeled speech, and about 10000 hours unlabeled speech, with 22400+ hours in total. We collect the data from YouTube and Podcast, which covers a variety of speaking styles, scenarios, domains, topics, and noisy conditions. An optical character recognition (OCR) based method is introduced to generate the audio/text segmentation candidates for the YouTube data on its corresponding video captions, while a high-quality ASR transcription system is used to generate audio/text pair candidates for the Podcast data. Then we propose a novel end-to-end label error detection approach to further validate and filter the candidates. We also provide three manually labelled high-quality test sets along with WenetSpeech for evaluation -- Dev for cross-validation purpose in training, Test_Net, collected from Internet for matched test, and Test\_Meeting, recorded from real meetings for more challenging mismatched test. Baseline systems trained with WenetSpeech are provided for three popular speech recognition toolkits, namely Kaldi, ESPnet, and WeNet, and recognition results on the three test sets are also provided as benchmarks. To the best of our knowledge, WenetSpeech is the current largest open-sourced Mandarin speech corpus with transcriptions, which benefits research on production-level speech recognition.

研究动机与目标

动机：需要一个大规模、多样化的普通话 ASR 语料库，能够反映真实世界条件和领域多样性。
提供一个可扩展的管线，用于从 YouTube 和 Podcast 数据中收集、对齐和验证音频/文本片段。
发布基线基准和评测集，以促进在流行工具包上的研究。
通过清晰标注的基于置信度的数据划分，支持半监督和监督训练。
提供可扩展的元数据，并在 CC-BY 4.0 条款下开放源代码，供非商业用途使用。

提出的方法

从 YouTube（基于 OCR 的字幕提取）和 Podcast（高质量 ASR 转写）进行分阶段数据收集。
基于 CTC 的强制对齐以检测转写错误，并构建用于标签错误检测的强制解码图。
置信度打分将数据划分为 Strong Label、Weak Label 和 Others，用于训练/验证。
以 JSON 表示的大量元数据，包含逐片段的置信度和源域标签。
为 Kaldi、ESPnet 和 WeNet 工具包提供基线模型和结果。

Fig. 1 : OCR based YouTube data collection pipeline

实验结果

研究问题

RQ1一个普通话 ASR 语料库应有多大、如何才算多样化，才能支持接近生产环境的鲁棒性？
RQ2带有端到端标签错误检测的 OCR 与高质量 ASR 转写管线，是否能够从网页数据产生高质量的音频/文本配对？
RQ3强标签/弱标签划分在中文 ASR 的监督与半监督训练中带来哪些好处？
RQ4Kaldi、ESPnet 和 WeNet 的基线在 WenetSpeech 的评测集上表现如何？
RQ5哪些基准和评测数据集最能反映现实世界的普通话ASR挑战（Dev、Test_Net、Test_Meeting）？

主要发现

WenetSpeech 由 22435 小时音频组成，其中包括 10005 小时 Strong Label 数据，2478 小时 Weak Label 数据，以及大约 9952 小时 Classified as Others。
基线结果显示 MER% 在各种工具包中随训练子集增大而改进，表明数据规模的好处（表 5）。
Kaldi、ESPnet、WeNet 在 Dev、Test_Net、Test_Meeting 上的基线在 AIShell-1 的 MER 为 Kaldi: 9.07、12.83、24.72、5.41； ESPNet: 9.70、8.90、15.90、3.90； WeNet: 8.88、9.70、15.59、4.61（表 5）。
Kaldi 使用子集 L 的结果在 AIShell-1 上的 MER 为 9.07、12.83、24.72、5.41，验证了数据规模的影响（表 6）。
该数据集是迄今为止最大的开源普通话带转写的语料库，能够促进更广泛的 ASR 研究。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。