[论文解读] Eliciting and Learning with Soft Labels from Every Annotator
本文提出了一种高效的方法,从单个标注者处获取软标签——即对所有类别进行的概率性判断——而非依赖多个标注者聚合得到的硬标签。通过在CIFAR-10上从248名标注者处收集6,200个软标签,作者发布了CIFAR-10S数据集,并表明使用这些标签训练的模型在仅需原方法8.5倍少的标注者的情况下,性能与以往方法相当,同时捕获了更丰富的不确定性信号,从而提升了模型的校准性和鲁棒性。
The labels used to train machine learning (ML) models are of paramount importance. Typically for ML classification tasks, datasets contain hard labels, yet learning using soft labels has been shown to yield benefits for model generalization, robustness, and calibration. Earlier work found success in forming soft labels from multiple annotators' hard labels; however, this approach may not converge to the best labels and necessitates many annotators, which can be expensive and inefficient. We focus on efficiently eliciting soft labels from individual annotators. We collect and release a dataset of soft labels (which we call CIFAR-10S) over the CIFAR-10 test set via a crowdsourcing study (N=248). We demonstrate that learning with our labels achieves comparable model performance to prior approaches while requiring far fewer annotators -- albeit with significant temporal costs per elicitation. Our elicitation methodology therefore shows nuanced promise in enabling practitioners to enjoy the benefits of improved model performance and reliability with fewer annotators, and serves as a guide for future dataset curators on the benefits of leveraging richer information, such as categorical uncertainty, from individual annotators.
研究动机与目标
- 开发一种方法,直接从单个标注者处获取丰富的、基于个体的软标签(即对所有类别的概率判断),而非依赖多个标注者聚合得到的硬标签。
- 通过最小化所需标注者的数量,在保持标签质量的前提下,降低收集软标签的成本与低效性。
- 发布一个新数据集CIFAR-10S,包含1,000张CIFAR-10测试图像的6,200个软标签,以支持模型泛化与校准的改进。
- 提供一个公开可用、可适配的接口,用于在其他领域和数据集中进行软标签的获取。
提出的方法
- 通过要求每位标注者为每张图像分配所有10个类别的概率,直接捕捉其不确定性。
- 使用众包界面,标注者查看图像后将概率分配给所有类别,且通过约束确保概率分布的有效性。
- 通过简单平均的方式聚合单个标注者的软标签,形成最终数据集CIFAR-10S。
- 发布接口代码,以支持在其他数据集和领域中的复用与扩展。
- 聚焦于可控的标签空间(10个类别),以确保可行性并降低标注过程中的认知负荷。
- 通过在CIFAR-10S上训练模型,并与基于聚合硬标签的先前基准CIFAR-10H进行性能对比,验证该方法的有效性。
实验结果
研究问题
- RQ1从单个标注者处获取的软标签能否实现与通过多个标注者聚合硬标签所得模型性能相当?
- RQ2与传统的硬标签聚合相比,获取标注者个体的概率判断是否能提升模型的校准性和鲁棒性?
- RQ3在使用单个标注者提供的软标签时,是否能显著减少所需标注者的数量,同时不损害模型性能?
- RQ4与传统硬标签标注相比,从每位标注者处获取软标签的时间成本如何?该成本能否被缓解?
- RQ5与聚合的硬标签相比,单个标注者提供的软标签在多大程度上更能反映人类的不确定性?
主要发现
- 在CIFAR-10S上训练的模型在准确率、鲁棒性和校准性方面,与在CIFAR-10H(由多个标注者聚合硬标签形成的基准)上训练的模型性能相当。
- 所提出的方法仅需约原方法所需标注者数量的1/8.5,即可实现相似的模型性能。
- CIFAR-10S数据集包含来自248名标注者的6,200个软标签,覆盖CIFAR-10测试集中的1,000张图像。
- 标注者表现出中等一致性:仅约7%的标注者在重复任务中改变了其最可能的标签,而未改变者平均概率变化为6%。
- 作者在https://github.com/cambridge-mlg/cifar-10s/发布其标注接口代码,支持在其他数据集中的复用与扩展。
- 本研究凸显了通过完整概率分布捕捉单个标注者不确定性的价值,其提供的信号比仅基于众数的聚合更丰富。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。