QUICK REVIEW

[論文レビュー] End-to-End Entity Resolution for Big Data: A Survey

Vassilis Christophides, Vasilis Efthymiou|arXiv (Cornell University)|May 15, 2019

Data Quality and Management参考文献 238被引用数 38

ひとこと要約

この論文はBig Dataのエンドツーエンドエンティティ解決ワークフローを概説し、ブロッキング、ブロック処理、マッチング、クラスタリングを詳述し、スキーマ非依存・高ボリューム・異種データに対する予算対応およびincrementalアプローチを論じる。

ABSTRACT

One of the most important tasks for improving data quality and the reliability of data analytics results is Entity Resolution (ER). ER aims to identify different descriptions that refer to the same real-world entity, and remains a challenging problem. While previous works have studied specific aspects of ER (and mostly in traditional settings), in this survey, we provide for the first time an end-to-end view of modern ER workflows, and of the novel aspects of entity indexing and matching methods in order to cope with more than one of the Big Data characteristics simultaneously. We present the basic concepts, processing steps and execution strategies that have been proposed by different communities, i.e., database, semantic Web and machine learning, in order to cope with the loose structuredness, extreme diversity, high speed and large scale of entity descriptions used by real-world applications. Finally, we provide a synthetic discussion of the existing approaches, and conclude with a detailed presentation of open research directions.

研究の動機と目的

実世界の同一エンティティを指す記述を特定し結びつけることによって、Big Dataにおけるデータ品質の改善を動機づける。
高ボリューム・高速度・多様性の下で、Blocking から Clustering までの ERワークフローをエンドツーエンドで提供する。
既存のBlocking、Matching、Clustering手法と半構造化データおよび異種データへの適用性を批判的にレビューする。
予算対応・インクリメンタル、クラウドソーシング、深層学習ベースのERアプローチを議論し、未解決の研究課題を特定する。

提案手法

エンドツーエンドのERワークフローの構成要素として、Blocking（インデックス作成）、Block Processing、Matching、Clusteringを説明する。
リテラルの袋（bag-of-literals）を用いたスキーマ非依存のBlocking とブロック間の冗長性を議論する。
冗長で不必要な比較を削減するためのBlock Processing手法を提示する。
マッチングを類似度に基づく決定関数として説明し、反復的および集合的（グラフベース）アプローチを含む。
実世界のエンティティに対応する説明の非重複グループを形成するクラスタリングを説明する。
計画と更新フェーズを含む予算対応ER、およびインクリメンタル/ストリーミングERの考慮事項を導入する。
Big Data文脈におけるエンドツーエンドERのシステムレベルおよび方法論的側面を概説する。

実験結果

リサーチクエスチョン

RQ1Volume、Velocity、Varietyを扱うBig Dataにおける効果的なエンドツーエンドERワークフローとは何か？
RQ2ブロッキング、ブロック処理、マッチングを、異種の記述に対応できるようスキーマ非依存の方法で設計できるか？
RQ3クラスタリングはマッチング結果を一貫性を持って統合して最終的なエンティティグループを形成する方法はどうあるべきか（集合的および反復的手法を含む）？
RQ4ERワークフローは予算対応（コスト制約）およびインクリメンタル／リアルタイムなシナリオにどのように適応すべきか？
RQ5エンドツーエンドのBig Data ERにおける未解決の研究方向と実践的なシステムは何か？

主な発見

半構造化データに対するブロッキング手法は、スキーマ非依存アプローチで高いリコールを達成できるが、冗長性と過剰な比較のために精度は低くなる傾向がある。
Block Processing手法は冗長で一致しない比較を削除しつつリコールを維持することで精度を効果的に向上させる。
メタブロッキングは、ブロックグラフのエッジを重み付け・剪定するフレームワークを提供し、不要な比較を減らす。
予算-aware ERは計画と更新フェーズを導入し、コスト制約内で照合を最大化するためにウィンドウ上で動作する。
インクリメンタルおよびリアルタイムERアプローチは、到着データを処理するために動的インデックス作成、ストリーミング対応のマッチング、およびインクリメンタルクラスタリングを要求する。
本調査はエンドツーエンドERワークフローを総合し、Big Dataにおけるブロッキング、処理、マッチング、クラスタリング、システム設計の未解決の方向性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。