Skip to main content
QUICK REVIEW

[论文解读] CrowdER: Crowdsourcing Entity Resolution

Jiannan Wang, Tim Kraska|arXiv (Cornell University)|Aug 9, 2012
Data Quality and Management参考文献 19被引用 65
一句话总结

本文提出 CrowdER,一种混合人机框架,用于实体消歧,通过机器学习对候选记录对进行预过滤,显著减少了昂贵的人工验证任务数量。通过将基于聚类的 HIT 生成建模为 NP-难问题,并引入两级启发式方法,CrowdER 在远少于纯人工方法的任务数量下实现了高准确率,成本降低了一个数量级以上,同时优于纯机器方法。

ABSTRACT

Entity resolution is central to data integration and data cleaning. Algorithmic approaches have been improving in quality, but remain far from perfect. Crowdsourcing platforms offer a more accurate but expensive (and slow) way to bring human insight into the process. Previous work has proposed batching verification tasks for presentation to human workers but even with batching, a human-only approach is infeasible for data sets of even moderate size, due to the large numbers of matches to be tested. Instead, we propose a hybrid human-machine approach in which machines are used to do an initial, coarse pass over all the data, and people are used to verify only the most likely matching pairs. We show that for such a hybrid system, generating the minimum number of verification tasks of a given size is NP-Hard, but we develop a novel two-tiered heuristic approach for creating batched tasks. We describe this method, and present the results of extensive experiments on real data sets using a popular crowdsourcing platform. The experiments show that our hybrid approach achieves both good efficiency and high accuracy compared to machine-only or human-only alternatives.

研究动机与目标

  • 解决在大规模数据集上纯人工实体消歧方法存在的高成本与可扩展性限制问题。
  • 在保持高准确率的前提下,减少实体消歧所需的人工验证任务数量。
  • 开发一种实用且可扩展的框架,整合基于机器的过滤与众包验证。
  • 探索在 HIT 中对记录对进行批处理与聚类,如何提升众包实体消歧的效率并降低延迟。

提出的方法

  • 应用机器学习对候选记录对进行预过滤,以减少人工审查前的搜索空间。
  • 将基于聚类的 HIT 生成建模为 NP-难问题,以最小化所需验证任务的数量。
  • 设计两级启发式方法:首先使用基于相似度的聚类算法将相似记录分组为聚类,然后优化聚类分配以最小化聚类数量。
  • 采用混合工作流,仅将机器过滤后最可能的匹配对发送至 Amazon Mechanical Turk 等众包平台。
  • 实现基于成对和基于聚类的 HIT,从成本、准确率和延迟角度对比其性能。
  • 针对实际约束(如 HIT 大小限制和工人界面熟悉度)进行优化。

实验结果

研究问题

  • RQ1与纯人工方法相比,混合人机方法是否能显著减少实体消歧中所需的人工验证任务数量?
  • RQ2在固定 HIT 大小和工人认知负荷等实际约束下,如何最小化基于聚类的 HIT 数量?
  • RQ3在众包实体消歧中,界面简洁性(成对界面)与效率(聚类界面)之间存在何种权衡?
  • RQ4在真实世界数据集上,机器仅用、纯人工与混合方法在实体消歧质量上表现如何?
  • RQ5工人对更简单界面的偏好在多大程度上影响众包实体消歧的性能与成本?

主要发现

  • 两级启发式方法生成的基于聚类的 HIT 数量显著少于现有算法,提升了任务效率。
  • 与纯人工方法相比,混合人机工作流将所需 HIT 数量减少了数量级,实现了显著的成本节约。
  • CrowdER 的准确率高于最先进的纯机器方法,证明了在高置信度匹配对上引入人工判断的价值。
  • 由于减少了任务开销,基于聚类的 HIT 在大量记录匹配时表现出比成对方法更低的延迟。
  • 尽管规模更小,基于聚类的 HIT 仍不如成对 HIT 受 AMT 工人欢迎,表明界面熟悉度会影响性能与成本。
  • 结果证实,仅靠批处理不足以实现可扩展性,机器预过滤对于可行的众包实体消歧至关重要。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。