[论文解读] Learning From Noisy Singly-labeled Data
论文提出了 Model Bootstrapped EM (MBEM),一种交替优化算法,联合估计工作者质量和标注函数,从嘈杂、单一标签的群众数据中学习,并在 ImageNet、CIFAR-10 和 MS-COCO 上提供理论保证和经验验证。
Supervised learning depends on annotated examples, which are taken to be the \emph{ground truth}. But these labels often come from noisy crowdsourcing platforms, like Amazon Mechanical Turk. Practitioners typically collect multiple labels per example and aggregate the results to mitigate noise (the classic crowdsourcing problem). Given a fixed annotation budget and unlimited unlabeled data, redundant annotation comes at the expense of fewer labeled examples. This raises two fundamental questions: (1) How can we best learn from noisy workers? (2) How should we allocate our labeling budget to maximize the performance of a classifier? We propose a new algorithm for jointly modeling labels and worker quality from noisy crowd-sourced data. The alternating minimization proceeds in rounds, estimating worker quality from disagreement with the current model and then updating the model by optimizing a loss function that accounts for the current estimate of worker quality. Unlike previous approaches, even with only one annotation per example, our algorithm can estimate worker quality. We establish a generalization error bound for models learned with our algorithm and establish theoretically that it's better to label many examples once (vs less multiply) when worker quality is above a threshold. Experiments conducted on both ImageNet (with simulated noisy workers) and MS-COCO (using the real crowdsourced labels) confirm our algorithm's benefits.
研究动机与目标
- 在固定标注预算下,推动从嘈杂的众包标签中学习。
- 开发一种算法,即使每个样本只有一个标签,也能估计工作者质量。
- 将工作者质量估计整合到加权损失中以训练分类器。
- 为 MBEM 方法提供理论上的泛化保证。
- 在 ImageNet、CIFAR-10 与 MS-COCO 上对 MBEM 进行与基线的经验验证。
提出的方法
- 使用 Dawid-Skene 框架以及工作者混淆矩阵 pi 来建模真实标签。
- 通过 Model Bootstrapped EM (MBEM) 程序迭代估计 pi 和标注函数 f*。
- 定义一个加权损失 ell_pi,q,使用后验 P[Y|Z^(r); w^(r)] 来训练 f,从而缓解标签噪声。
- 使用基于后验的加权通过最小化带有修改后损失的经验风险来更新 f(方程式 4)。
- 从模型预测 t_i 与观测标签 Z_ij(方程式 7)中估计工作者混淆矩阵 pi^(a) 与先验 q。
- 提供一个两轮(T=2)MBEM,对超额风险和混淆矩阵估计给出理论保证(定理 4.1)。
实验结果
研究问题
- RQ1在每个样本可能仅由一个工作者标注(低冗余)的情况下,我们如何从嘈杂的众包标签中学习准确的分类器?
- RQ2我们能否联合估计工作者质量和真实标签函数,以提高下游分类器的性能?
- RQ3在 Dawid-Skene 模型及噪声标签下,MBEM 的理论保证(泛化界限)是什么?
- RQ4在考虑工作者质量的前提下,给定预算条件下,多次标注多样本 vs. 一次标注大量样本何时是最优?
- RQ5在大型数据集(ImageNet、CIFAR-10、MS-COCO)上的经验结果是否支持 MBEM 相对于多数投票或 EM 等基线?
主要发现
- 在低冗余 setting 下,MBEM 在 CIFAR-10、ImageNet 和 MS-COCO 上相对于 MV、EM 和加权基线显著改善泛化误差。
- MBEM 仅用每个样本一个标签就能通过从模型分歧中自举工作者质量估计达到接近 Oracle 的性能。
- 两轮 MBEM(T=2)足以在合成和真实众包标签的实验中实现相对于基线的显著提升。
- 理论给出一个随 VC 维度扩展的超额风险界,并指出在工作者质量超过阈值(rho 远小于 1/2)时,单次标注可能是最优。
- 在 CIFAR-10 和 ImageNet 上的经验结果显示 MBEM 相对于固定预算的基线;MBEM 始终优于 MV 和 EM,在许多设置中接近 oracle 性能。
- 在 MS-COCO 上,当使用嘈杂标注并采用现实的多标签设置时,MBEM 的 F1 分数高于 MV 和 EM。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。