QUICK REVIEW

[论文解读] SpeechStew: Simply Mix All Available Speech Recognition Data to Train One Large Neural Network

William Chan, Daniel Park|arXiv (Cornell University)|Apr 5, 2021

Speech Recognition and Synthesis参考文献 54被引用 75

一句话总结

SpeechStew 将多个公开的 ASR 数据集混合，用以训练一个单一的大型端到端模型，在不使用外部语言模型的情况下达到最先进或接近最先进的结果，并展示对 CHiME-6 的强迁移学习能力。

ABSTRACT

We present SpeechStew, a speech recognition model that is trained on a combination of various publicly available speech recognition datasets: AMI, Broadcast News, Common Voice, LibriSpeech, Switchboard/Fisher, Tedlium, and Wall Street Journal. SpeechStew simply mixes all of these datasets together, without any special re-weighting or re-balancing of the datasets. SpeechStew achieves SoTA or near SoTA results across a variety of tasks, without the use of an external language model. Our results include 9.0\% WER on AMI-IHM, 4.7\% WER on Switchboard, 8.3\% WER on CallHome, and 1.3\% on WSJ, which significantly outperforms prior work with strong external language models. We also demonstrate that SpeechStew learns powerful transfer learning representations. We fine-tune SpeechStew on a noisy low resource speech dataset, CHiME-6. We achieve 38.9\% WER without a language model, which compares to 38.6\% WER to a strong HMM baseline with a language model.

研究动机与目标

通过利用多样且公开可用的数据集来提升端到端 ASR 的泛化能力，而无需重新加权或领域特定调整。
提出一个简单的多领域训练方案，使用混合数据将单个模型扩展到 100M 或 1B 参数。
通过在一个低资源、嘈杂的数据集（CHiME-6）上微调预训练模型来展示迁移学习能力。
在推理阶段不使用外部语言模型的情况下，评估在广泛任务上的性能。

提出的方法

训练一个单一的大型 Conformer-RNN-T 模型（100M 和 1B 参数配置）。
在不进行数据再加权的情况下，组合 AMI、Common Voice、English Broadcast News、LibriSpeech、Switchboard/Fisher、TED-LIUM v3 和 WSJ。
在对 LibriLight 的 wav2vec 2.0 预训练后再进行监督的 SpeechStew 训练，以实现 1B 模型。
使用 SpecAugment 和带有 Adam/Adafactor 优化器的大批量训练，并对评估使用指数滑动平均。
在 CHiME-6 上对预训练的 SpeechStew 进行微调，以展示迁移学习能力。
推理阶段不使用外部语言模型。

实验结果

研究问题

RQ1简单混合多个公开语音识别数据集是否能够训练出一个单一的大型模型，在没有外部语言模型的情况下，在多样化的 ASR 任务上达到或接近最先进的结果？
RQ2大型多领域模型是否能够保留迁移学习能力，在微调后提高对低资源、嘈杂数据集的性能？
RQ3wav2vec 预训练与具有超大参数量的监督式 SpeechStew 模型如何交互？

主要发现

SpeechStew 在 AMI-IHM 上达到 9.0 WER，在 Common Voice（100M 模型）上达到 21.7 WER。
SpeechStew 在 LibriSpeech 上达到 12.1 WER（干净数据）和 9.7 WER（带标点标准化）。
SpeechStew 在 Switchboard 上达到 4.7 WER，在 CallHome 上达到 8.3 WER。
SpeechStew 在 WSJ 上达到 1.3 WER。
SpeechStew 1B 与 LibriLight 预训练相比，提升了一些任务的表现，相较于 100M 模型显示出强迁移能力至 CHiME-6（微调后：CHiME-6 eval 的 38.9 WER）。
零-shot CHiME-6（SpeechStew 1B）在 eval 上产生 53.7 WER，在 dev 上为 39.2；微调后在 eval 上提升至 38.9 WER。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。