QUICK REVIEW

[论文解读] SUPERB: Speech processing Universal PERformance Benchmark

Shu-Wen Yang, Po-Han Chi|arXiv (Cornell University)|May 3, 2021

Topic Modeling参考文献 40被引用 51

一句话总结

SUPERB 引入一个固定的、冻结预训练模型框架，在 10+ 个人声音任务上使用轻量级下游头部对自监督学习表示进行基准测试，结果与传统流程相比具有竞争力。

ABSTRACT

Self-supervised learning (SSL) has proven vital for advancing research in natural language processing (NLP) and computer vision (CV). The paradigm pretrains a shared model on large volumes of unlabeled data and achieves state-of-the-art (SOTA) for various tasks with minimal adaptation. However, the speech processing community lacks a similar setup to systematically explore the paradigm. To bridge this gap, we introduce Speech processing Universal PERformance Benchmark (SUPERB). SUPERB is a leaderboard to benchmark the performance of a shared model across a wide range of speech processing tasks with minimal architecture changes and labeled data. Among multiple usages of the shared model, we especially focus on extracting the representation learned from SSL due to its preferable re-usability. We present a simple framework to solve SUPERB tasks by learning task-specialized lightweight prediction heads on top of the frozen shared model. Our results demonstrate that the framework is promising as SSL representations show competitive generalizability and accessibility across SUPERB tasks. We release SUPERB as a challenge with a leaderboard and a benchmark toolkit to fuel the research in representation learning and general speech processing.

研究动机与目标

提供一个标准、全面的基准，以评估自监督（SSL）语音表示在多样化任务上的泛化与可重用性。
评估一个冻结的、共享的预训练模型作为通用表示编码器的有效性，以及轻量级、任务特异性头部的作用。
在广泛的任务集合中，将 SSL 表示与传统特征（FBANK）进行对比。
通过开源工具包与排行榜，促进开放、可重复的评估。

提出的方法

将任务分成内容、说话人、语义和副语言学四类，共十项任务并使用标准数据集。
使用一个冻结的、共享的 SSL 预训练模型作为通用表示编码器。
附加轻量级、任务特异性预测头，并仅训练这些头部（以及少量下游组件）。
提取多层表示并通过加权和的方式将其用于下游输入。
评估涵盖生成式、判别式和多任务预训练等广泛的 SSL 模型。
提供一个基准工具包和在线排行榜，方便提交与可重复性。

实验结果

研究问题

RQ1一个单一的预训练 SSL 模型是否可以在极少下游训练的情况下，作为跨多任务的通用表示编码器？
RQ2在冻结表示、轻量级头部的设置中，不同的 SSL 预训练范式（生成式、判别式、多任务）对比结果如何？
RQ3在受限的下游微调条件下，SSL 表示是否在这些任务上优于传统的 FBANK 特征？
RQ4SSL 模型在内容、说话人、语义和副语言学任务上的相对表现与泛化能力如何？

主要发现

PR	KS	IC	SID	ER	ASR（WER）	QbE	SF	ASV	SD	PER	ACC	ACC
FBANK	82.01	8.63	9.10	8.5E-4	35.39	23.18	15.21	0.0058	69.64	52.94	9.56	10.05
PASE+ [16]	58.87	82.54	29.82	37.99	57.86	25.11	16.62	0.0072	62.14	60.17	11.61	8.68
APC [7]	41.98	91.01	74.69	60.42	59.33	21.28	14.74	0.0310	70.46	50.89	8.56	10.53
VQ-APC [32]	41.08	91.11	74.48	60.15	59.66	21.20	15.21	0.0251	68.53	52.91	8.72	10.45
NPC [33]	43.81	88.96	69.44	55.92	59.08	20.20	13.91	0.0246	72.79	48.44	9.4	9.34
Mockingjay [8]	70.19	83.67	34.33	32.29	50.28	22.82	15.48	6.6E-04	61.59	58.89	11.66	10.54
TERA [9]	49.17	89.48	58.42	57.57	56.27	18.17	12.16	0.0013	67.50	54.17	15.89	9.96
DeCoAR 2.0 [10]	14.93	94.48	90.80	74.42	62.47	13.02	9.07	0.0406	83.28	34.73	7.16	6.59
modified CPC [34]	42.54	91.88	64.09	39.63	60.96	20.18	13.53	0.0326	71.19	49.91	12.86	10.38
wav2vec [12]	31.58	95.59	84.92	56.56	59.79	15.86	11.00	0.0485	76.37	43.71	7.99	9.9
vq-wav2vec [13]	33.48	93.38	85.68	38.80	58.24	17.71	12.80	0.0410	77.68	41.54	10.38	9.93
wav2vec 2.0 Base [14]	5.74	96.23	92.35	75.18	63.43	6.43	4.79	0.0233	88.30	24.77	6.02	6.08
wav2vec 2.0 Large [14]	4.75	96.66	95.28	86.14	65.64	3.75	3.10	0.0489	87.11	27.31	5.65	5.62
HuBERT Base [35]	5.41	96.30	98.34	81.42	64.92	6.42	4.79	0.0736	88.53	25.20	5.11	5.88
HuBERT Large [35]	3.53	95.29	98.76	90.33	67.62	3.62	2.94	0.0353	89.81	21.76	5.98	5.75

SSL 表示（如 wav2vec 2.0 和 HuBERT）在多个 SUPERB 任务中，使用轻量级任务头部也能取得有竞争力的结果。
FBANK 特征需要更多下游复杂度才能具备竞争力；在线性或简单下游模型下，SSL 表示通常优于 FBANK。
某些 SSL 模型在特定任务（PR、IC、QbE、SF）中表现出色，并在端到端 ASR 与 QbE 场景中展现显著改进。
该框架展示了 SSL 表示在语音处理任务上的强大泛化性与再用性。
HuBERT 和 wav2vec 2.0 在多个任务上提供尤其强劲的性能，包括 QbE 与 SF。
该方法通过利用稳健的 SSL 表示并极少量下游定制，简化了 ASR 系统开发。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。