Skip to main content
QUICK REVIEW

[论文解读] A Glimpse Far into the Future: Understanding Long-term Crowd Worker Quality

Kenji Hata, Ranjay Krishna|arXiv (Cornell University)|Sep 15, 2016
Mobile Crowdsensing and Crowdsourcing参考文献 54被引用 23
一句话总结

本研究基于来自 Amazon Mechanical Turk 的九百万条标注数据,分析了长期微任务众包的质量,发现无论任务阈值如何,工人的准确率和速度在数周至数月内保持稳定。仅凭工人前五项任务的表现,即可以仅 3.4% 的平均误差预测其长期质量,挑战了关于疲劳和妥协行为的传统假设。

ABSTRACT

Microtask crowdsourcing is increasingly critical to the creation of extremely large datasets. As a result, crowd workers spend weeks or months repeating the exact same tasks, making it necessary to understand their behavior over these long periods of time. We utilize three large, longitudinal datasets of nine million annotations collected from Amazon Mechanical Turk to examine claims that workers fatigue or satisfice over these long periods, producing lower quality work. We find that, contrary to these claims, workers are extremely stable in their quality over the entire period. To understand whether workers set their quality based on the task's requirements for acceptance, we then perform an experiment where we vary the required quality for a large crowdsourcing task. Workers did not adjust their quality based on the acceptance threshold: workers who were above the threshold continued working at their usual quality level, and workers below the threshold self-selected themselves out of the task. Capitalizing on this consistency, we demonstrate that it is possible to predict workers' long-term quality using just a glimpse of their quality on the first five tasks.

研究动机与目标

  • 调查众包工人在长期重复性任务工作过程中,是否因疲劳或认知负荷而导致表现下降。
  • 检查工人是否会根据任务接受阈值或阈值透明度调整其质量表现。
  • 确定工人在任务初期的表现是否能可靠预测其长期质量。
  • 评估工人质量一致性对设计高效众包工作流和质量控制策略的影响。

提出的方法

  • 分析了来自 Amazon Mechanical Turk 的三个大型纵向数据集,涵盖图像描述、问答和二元验证任务,总标注量超过九百万条。
  • 追踪了工人在时间维度上的准确率、速度和响应多样性,以检测表现退化或提升的趋势。
  • 通过控制实验,改变接受阈值及其透明度,观察工人的策略性行为。
  • 使用前五项任务准确率的简单平均值作为长期工人质量的预测模型。
  • 通过比较基于前五项任务预测的质量与工人最后 10% 任务提交的实际质量,评估预测准确性。
  • 应用统计分析评估不同工人和任务类型间的一致性,重点关注表现指标的稳定性。

实验结果

研究问题

  • RQ1在长期微任务工作中,工人是否因疲劳或认知负荷而出现表现下降?
  • RQ2工人是否会根据任务的接受阈值或阈值透明度,战略性地调整其质量表现?
  • RQ3工人在前几项任务中的表现是否能可靠预测其在相同任务上的长期质量?
  • RQ4工人表现的一致性如何影响大规模众包中质量控制机制的设计?

主要发现

  • 工人在长时间的重复性任务工作中保持极高的准确率稳定性,数周至数月内无显著表现下降。
  • 工人不会因接受阈值的高低而调整其质量水平;相反,低质量工人会主动退出高阈值任务。
  • 仅使用前五项任务准确率预测工人长期质量的平均误差仅为 3.4%。
  • 工人速度随经验提升,但质量保持不变,表明长期来看速度与准确率之间不存在权衡。
  • 工人行为的一致性支持采用以个体为中心的质量控制策略,如基于初始表现的早期筛选,而非以流程为中心的方法(如调整阈值)。
  • 本研究发现仅适用于数据标注类微任务,可能不适用于更复杂或更具创造性的任务。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。