[论文解读] Slice-based Learning: A Programming Model for Residual Learning in Critical Data Slices
本文提出切片学习(Slice-based Learning, SBL),一种编程模型,通过切片函数(SFs)和注意力机制学习切片特异的专家表示,从而提升关键数据子集(称为切片)的模型性能。SBL在自然语言处理、视觉和工业数据集上,切片性能最高提升19.0 F1,整体F1提升4.6,同时仅带来每切片5–7%的相对参数增长,参数效率高,优于MoE和弱监督基线方法。
In real-world machine learning applications, data subsets correspond to especially critical outcomes: vulnerable cyclist detections are safety-critical in an autonomous driving task, and "question" sentences might be important to a dialogue agent's language understanding for product purposes. While machine learning models can achieve high quality performance on coarse-grained metrics like F1-score and overall accuracy, they may underperform on critical subsets---we define these as slices, the key abstraction in our approach. To address slice-level performance, practitioners often train separate "expert" models on slice subsets or use multi-task hard parameter sharing. We propose Slice-based Learning, a new programming model in which the slicing function (SF), a programming interface, specifies critical data subsets for which the model should commit additional capacity. Any model can leverage SFs to learn slice expert representations, which are combined with an attention mechanism to make slice-aware predictions. We show that our approach maintains a parameter-efficient representation while improving over baselines by up to 19.0 F1 on slices and 4.6 F1 overall on datasets spanning language understanding (e.g. SuperGLUE), computer vision, and production-scale industrial systems.
研究动机与目标
- 解决在不降低整体性能的前提下,提升关键且常为稀少的数据子集(切片)性能的挑战。
- 提供一种参数高效的编程模型,使实践者可通过切片函数(SFs)指定关键数据子集。
- 通过注意力机制学习基础预测与切片特异预测之间的残差,实现稳定、切片感知的预测。
- 在不引发参数爆炸的前提下,有效扩展至数百个切片,避免混合专家或采用硬参数共享的多任务学习带来的高参数增长。
- 无需修改网络架构,即可与最先进模型(如BERT、ResNet)集成,提升真实世界工业数据集和基准数据集的性能。
提出的方法
- 切片函数(SFs)是用户定义的启发式规则,将输入数据映射为二值指标,标识关键数据子集(切片)。
- 切片残差注意力模块(SRAMs)学习基础模型预测与切片特异预测之间的残差,实现基于注意力的切片专家表示融合。
- 模型通过共享主干网络参数初始化切片专家表示,保持参数效率。
- 注意力机制根据切片隶属度和预测置信度,重新加权切片专家表示,生成切片感知的最终预测。
- 该方法与网络架构无关,可应用于任意神经网络主干网络,包括BERT和ResNet。
- SBL利用SFs的弱监督,避免显式标注,适用于存在噪声或不完美切片定义的真实世界部署。
实验结果
研究问题
- RQ1能否设计一种编程模型,在不降低整体性能的前提下,提升关键数据切片的模型性能?
- RQ2在涉及数百个切片的情况下,如何在保持参数效率的同时增强切片特异性性能?
- RQ3基于注意力的切片专家表示融合是否能优于传统多任务学习或混合专家方法在切片特异性性能上的表现?
- RQ4SBL在真实世界基准(如SuperGLUE)和工业数据集上,对最先进模型的性能提升程度如何?
- RQ5注意力机制中访问深层特征是否能为弱监督方法(仅依赖启发式投票)提供性能优势?
主要发现
- 在使用BERT-base的SuperGLUE基准上,SBL在单个切片上F1最高提升19.0,整体F1提升4.6。
- 在自动驾驶车辆数据上,SBL在上下文依赖切片(如存在公交车或交通灯)上实现最高15.6的F1提升。
- SBL优于MoE,后者每切片需多出一个数量级的参数,而SBL仅增加5–7%的相对参数,性能却相当或更优。
- 在弱监督任务(Spouses和CDR)中,SBL分别实现+0.9和+1.3的整体F1提升,且在启发式定义的切片上最高实现15.9的F1增益。
- 在SuperGLUE提交中,SBL使Commitment Bank(CB)基准的平均F1提升+3.8,准确率提升+2.8。
- SBL在多种领域(NLP的SuperGLUE、计算机视觉的CyDet,以及工业级系统)均表现出一致的性能增益,证明其通用性与可扩展性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。