[论文解读] Inferring ground truth from multi-annotator ordinal data: a probabilistic approach
本文提出了一种基于变分贝叶斯推断算法的稳健概率序数众包模型,通过联合建模标注者专业度、样本难度和垃圾标注者,从多个噪声序数标注中推断真实标签。所提出的序数-离散混合模型在准确性和对垃圾标注的鲁棒性方面优于现有最先进方法,尤其在来自 Amazon Mechanical Turk 的真实世界查询-URL 相关性数据集上表现优异。
A popular approach for large scale data annotation tasks is crowdsourcing, wherein each data point is labeled by multiple noisy annotators. We consider the problem of inferring ground truth from noisy ordinal labels obtained from multiple annotators of varying and unknown expertise levels. Annotation models for ordinal data have been proposed mostly as extensions of their binary/categorical counterparts and have received little attention in the crowdsourcing literature. We propose a new model for crowdsourced ordinal data that accounts for instance difficulty as well as annotator expertise, and derive a variational Bayesian inference algorithm for parameter estimation. We analyze the ordinal extensions of several state-of-the-art annotator models for binary/categorical labels and evaluate the performance of all the models on two real world datasets containing ordinal query-URL relevance scores, collected through Amazon's Mechanical Turk. Our results indicate that the proposed model performs better or as well as existing state-of-the-art methods and is more resistant to `spammy' annotators (i.e., annotators who assign labels randomly without actually looking at the instance) than popular baselines such as mean, median, and majority vote which do not account for annotator expertise.
研究动机与目标
- 解决从众包数据中多个噪声序数标注推断准确真实标签的挑战。
- 在序数标注任务中建模标注者专业度和样本难度的差异。
- 明确检测并降低不加检查即随机分配标签的垃圾标注者的影响。
- 评估现有二值化/分类标注模型的序数扩展在真实世界数据集上的性能。
- 开发一种可扩展的推断算法,在不确定性下联合估计真实标签和模型参数。
提出的方法
- 提出一种新颖的概率模型——序数-离散混合模型,通过序数似然和均匀(垃圾)成分的混合来建模序数标签。
- 采用潜在变量框架,将每个标注者的标签建模为结构化序数响应与均匀随机响应的混合,从而实现垃圾标注检测。
- 在生成模型中将样本特定难度和标注者特定专业度作为潜在变量引入。
- 采用变分贝叶斯推断算法近似潜在变量和模型参数的后验分布,实现可扩展学习。
- 通过累积链接函数建模序数结构,保留标签值的自然顺序,区别于二值化或分类扩展。
- 将标注者专业度和样本难度同时整合到似然函数中,提升标签恢复的准确性。
实验结果
研究问题
- RQ1概率模型在序数标注任务中联合推断真实标签并考虑标注者专业度差异的能力如何?
- RQ2建模样本难度在多大程度上提升了众包序数数据中真实标签推断的准确性?
- RQ3所提模型在检测并降低随机分配标签的垃圾标注者影响方面效果如何?
- RQ4与将其视为分类或实数值相比,标签的序数结构对模型性能有何影响?
- RQ5在真实世界数据集上,所提模型与现有最先进方法在均方误差(MSE)、相关系数和归一化折损累计增益(NDCG)方面的表现如何?
主要发现
- 所提出的序数-离散混合模型在 Yandex 和 TREC 数据集上,于均方误差(MSE)、相关系数和归一化折损累计增益(NDCG)方面均优于或匹配现有最先进模型。
- 与均值、中位数和多数投票等基线方法相比,该模型对垃圾标注者的鲁棒性显著更强,后者的性能随垃圾标注比例上升而急剧下降。
- 模型中包含垃圾混合成分对鲁棒性至关重要,无此成分的变体在高垃圾标注条件下表现极差。
- 采用累积链接函数的序数似然模型优于实数值似然模型,证明保留标签顺序的重要性。
- 该模型能有效识别并降低垃圾标注者的影响,显著减少其对真实标签估计的干扰。
- 即使每个查询-URL 对中引入多达 9 个虚假垃圾评分,该模型仍保持强大性能,优于所有基线方法和现有专家感知模型。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。