QUICK REVIEW

[論文レビュー] CrowdER: Crowdsourcing Entity Resolution

Jiannan Wang, Tim Kraska|arXiv (Cornell University)|Aug 9, 2012

Data Quality and Management参考文献 19被引用数 65

ひとこと要約

この論文では、機械学習を用いて候補レコードペアを事前にフィルタリングすることで、高コストな人間による検証作業の数を顕著に削減する、人間と機械のハイブリッドフレームワークであるCrowdERを提案する。クラスタベースのHIT生成をNP困難問題として定式化し、二段階のヒューリスティックを導入することで、人間のみのアプローチよりもはるかに少ないタスクで高い正確性を達成し、コストを桁違いに削減するとともに、機械のみの手法を上回る性能を示した。

ABSTRACT

Entity resolution is central to data integration and data cleaning. Algorithmic approaches have been improving in quality, but remain far from perfect. Crowdsourcing platforms offer a more accurate but expensive (and slow) way to bring human insight into the process. Previous work has proposed batching verification tasks for presentation to human workers but even with batching, a human-only approach is infeasible for data sets of even moderate size, due to the large numbers of matches to be tested. Instead, we propose a hybrid human-machine approach in which machines are used to do an initial, coarse pass over all the data, and people are used to verify only the most likely matching pairs. We show that for such a hybrid system, generating the minimum number of verification tasks of a given size is NP-Hard, but we develop a novel two-tiered heuristic approach for creating batched tasks. We describe this method, and present the results of extensive experiments on real data sets using a popular crowdsourcing platform. The experiments show that our hybrid approach achieves both good efficiency and high accuracy compared to machine-only or human-only alternatives.

研究の動機と目的

大規模データセットにおける人間のみのエンティティレゾリューションの高コストとスケーラビリティの制限を解決すること。
正確性を維持したまま、エンティティレゾリューションに必要な人間による検証タスクの数を削減すること。
機械ベースのフィルタリングとクラウドソーシングによる検証を統合した実用的でスケーラブルなフレームワークを開発すること。
HITにおけるレコードペアのバッチ処理とクラスタリングが、クラウドソーシングによるエンティティレゾリューションの効率性と遅延をどのように向上させるかを調査すること。

提案手法

人間によるレビューの前に検索空間を縮小するために、機械学習を用いて候補レコードペアを事前にフィルタリングする。
クラスタベースのHIT生成をNP困難問題として定式化し、検証タスクの数を最小限に抑える。
二段階のヒューリスティックアプローチを設計する：まず類似度に基づくクラスタリングアルゴリズムで類似したレコードをクラスタにグループ化し、その後、クラスタ数を最小化するようにクラスタ割り当てを最適化する。
機械によるフィルタリングで最も可能性の高いマッチングのみを、Amazon Mechanical Turkなどのクラウドソーシングプラットフォームに送信するハイブリッドワークフローを実装する。
ペアベースとクラスタベースのHITを実装し、コスト、正確性、遅延の観点から性能を比較する。
HITサイズ制限や作業者インターフェースの慣れといった現実の制約を最適化する。

実験結果

リサーチクエスチョン

RQ1人間のみの手法と比較して、ハイブリッド人間・機械アプローチが、エンティティレゾリューションにおける必要な人間による検証タスクの数を顕著に削減できるか。
RQ2固定されたHITサイズと作業者の認知的負荷という実用的制約下で、クラスタベースのHIT数をいかに最小化できるか。
RQ3クラウドソーシングによるエンティティレゾリューションにおいて、インターフェースの単純さ（ペアベース）と効率性（クラスタベース）の間にはどのようなトレードオフがあるか。
RQ4実世界のデータセットにおいて、機械のみ、人間のみ、ハイブリッドアプローチのエンティティレゾリューションの品質はどのように比較できるか。
RQ5作業者による単純なインターフェースの好みが、クラウドソーシングによるエンティティレゾリューションのパフォーマンスとコストにどの程度影響を与えるか。

主な発見

二段階のヒューリスティックアプローチは、既存のアルゴリズムと比較して、はるかに少ないクラスタベースのHITを生成し、タスクの効率性を向上させた。
ハイブリッド人間・機械ワークフローにより、人間のみのアプローチと比較して必要なHIT数が桁違いに削減され、顕著なコスト削減を達成した。
CrowdERは、最先端の機械のみの技術を上回る高い正確性を達成した。これは、高信頼度のペアに対して人間の知見が価値を持つことを示している。
レコードのマッチング数が多い場合、クラスタベースのHITはペアベースのアプローチよりも遅延が低く、タスクのオーバーヘッドが少なかった。
サイズが小さいにもかかわらず、AMTの作業者にとってクラスタベースのHITはペアベースのHITよりも好まれにくく、インターフェースの慣れがパフォーマンスとコストに影響を与える可能性があることを示唆した。
結果から、バッチ処理だけではスケーラビリティが不十分であり、機械による事前フィルタリングが、実用的なクラウドソーシングによるエンティティレゾリューションに不可欠であることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。