[论文解读] USB: A Unified Semi-supervised Learning Benchmark for Classification
USB 提出一个跨领域的统一半监督学习基准测试,涵盖 CV、NLP 与音频的 15 个任务,使用预训练骨干网络实现对 14 种 SSL 算法的成本高效评估。
Semi-supervised learning (SSL) improves model generalization by leveraging massive unlabeled data to augment limited labeled samples. However, currently, popular SSL evaluation protocols are often constrained to computer vision (CV) tasks. In addition, previous work typically trains deep neural networks from scratch, which is time-consuming and environmentally unfriendly. To address the above issues, we construct a Unified SSL Benchmark (USB) for classification by selecting 15 diverse, challenging, and comprehensive tasks from CV, natural language processing (NLP), and audio processing (Audio), on which we systematically evaluate the dominant SSL methods, and also open-source a modular and extensible codebase for fair evaluation of these SSL methods. We further provide the pre-trained versions of the state-of-the-art neural models for CV tasks to make the cost affordable for further tuning. USB enables the evaluation of a single SSL algorithm on more tasks from multiple domains but with less cost. Specifically, on a single NVIDIA V100, only 39 GPU days are required to evaluate FixMatch on 15 tasks in USB while 335 GPU days (279 GPU days on 4 CV datasets except for ImageNet) are needed on 5 CV tasks with TorchSSL.
研究动机与目标
- 激励并解决仅限于 CV 任务且训练成本高的 SSL 基准的局限性。
- 构建一个统一的 SSL 基准(USB),涵盖 CV、NLP 与音频领域的 15 项多样任务。
- 通过采用预训练骨干网络以及预训练/微调范式来实现成本高效的评估。
- 提供一个开源、模块化的代码库和预训练模型,以使 SSL 研究可重复。
提出的方法
- 从 CV、NLP 和音频中选择 15 个多样且具有挑战性的任务来组成 USB。
- 实现基于一致性正则化的 14 种 SSL 算法(例如 Pi model、Pseudo Labeling、Mean Teacher、VAT、MixMatch、ReMixMatch、UDA、FixMatch、Dash、CoMatch、CRMatch、FlexMatch、AdaMatch、SimMatch)。
- 使用预训练骨干网络(CV 使用 ViT,NLP 使用 BERT,音频使用 Wav2Vec 2.0/HuBert)以减少训练迭代次数。
- 在低成本的预训练加微调范式下评估 SSL 方法,并通过可重复性配置文件和训练日志报告结果。
- 比较跨域的 SSL 性能,并分析多样任务、预训练和无标签数据可用性对结果的影响。
实验结果
研究问题
- RQ1在统一基准内,SSL 方法在 CV 任务上训练后能否推广到 NLP 和音频任务?
- RQ2预训练加微调是否显著降低 SSL 评估成本,同时保持或提高准确性?
- RQ3在 USB 下评估时,SSL 算法在多个域(CV、NLP、音频)之间的比较如何?
- RQ4哪些因素(例如自适应阈值化、自监督损失、分布对齐)在跨域 SSL 性能中影响最大?
主要发现
- 预训练骨干网络在很大程度上减少训练迭代,并常常提升跨数据集的 SSL 性能。
- ReMixMatch 由于 Mixup、Distribution Alignment 和旋转自监督损失而始终名列前茅,特别是在长尾 CV 数据上。
- 自适应阈值方法(FlexMatch、AdaMatch)在 CV 和 NLP 领域表现良好,即使没有自监督损失。
- SSL 方法的性能排名因域而异,表明域特征影响 SSL 的有效性。
- USB 的评估成本显著更低(15 项任务共 39 GPU 天),相比先前的协议(如 5 项 CV 任务共 335 GPU 天)。
- 音频任务的 SSL 结果显示独特趋势,AdaMatch 与 SimMatch 表现强劲,而某些方法如 CRMatch 因原始波形数据而表现不佳。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。