QUICK REVIEW

[论文解读] Robust Speech Recognition via Large-Scale Weak Supervision

Alec Radford, Jong Wook Kim|arXiv (Cornell University)|Dec 6, 2022

Speech Recognition and Synthesis被引用 1,135

一句话总结

Whisper 在 680k 小时的弱监督、跨语言数据上进行训练，实现零样本的强鲁棒语音识别，能够匹配有监督模型并在鲁棒性方面接近人类表现且无需微调。

ABSTRACT

We study the capabilities of speech processing systems trained simply to predict large amounts of transcripts of audio on the internet. When scaled to 680,000 hours of multilingual and multitask supervision, the resulting models generalize well to standard benchmarks and are often competitive with prior fully supervised results but in a zero-shot transfer setting without the need for any fine-tuning. When compared to humans, the models approach their accuracy and robustness. We are releasing models and inference code to serve as a foundation for further work on robust speech processing.

研究动机与目标

探讨大规模弱监督预训练是否能够在跨语言和跨任务上产生稳健的、零样本的语音识别。
在不对解码器进行微调的情况下，评估标准基准上的跨领域鲁棒性和零样本迁移。
研究多语言与多任务训练的收益，并在分布转移条件下与人类表现进行比较。
发布模型和推理代码，为鲁棒语音处理奠定基础。

提出的方法

使用一个编码器-解码器 Transformer，在包含 96 种语言的转录文本和翻译数据的 680,000 小时音频上进行训练。
将多种任务（转录、翻译、语音活动检测、语言识别）表示为带有特殊标记的单一序列到序列目标。
以最少的预处理、过滤以减小机器生成的转录，并将音频分割为 30 秒的片段进行训练。
在多样化数据集的零样本设置下进行评估，以衡量分布外鲁棒性。
在后续的大模型变体中，逐步通过正则化（specAugment、随机深度、BPE dropout）改进训练。

实验结果

研究问题

RQ1在不对解码器进行微调的情况下，大规模弱监督预训练是否能够在跨语言和跨任务上实现稳健的零样本语音识别？
RQ2多语言/多任务预训练如何影响跨领域鲁棒性和零样本性能，相对于有监督基线？
RQ3零样本 Whisper 模型在多样化数据集上的鲁棒性达到接近人类表现的程度如何？
RQ4数据质量过滤和去重对模型性能与泛化有何影响？
RQ5在长文本转录和嘈杂条件下，Whisper 与专门模型相比的表现如何？

主要发现

零样本 Whisper 模型在多份数据集上相对于用 LibriSpeech 训练的有监督模型，在分布外评估时表现出具竞争力甚至优越的鲁棒性。
平均而言，与在 LibriSpeech 上具有相似 LibriSpeech 表现的基线相比，零样本 Whisper 在非 LibriSpeech 数据集上的错误率下降约 55.2%。
Whisper 在若干基准测试中达到或接近人类的鲁棒性，尤其在分布转移和嘈杂条件下。
多语言与多任务预训练显示语言数据量与零样本性能之间存在强相关性，语言数据量对翻译和识别在不同任务上的表现有不同的预测作用。
Whisper 展示出强大的长篇转录能力，在许多数据集上与商业和开源系统具备竞争力的表现。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。