Skip to main content
QUICK REVIEW

[論文レビュー] MinoanER: Schema-Agnostic, Non-Iterative, Massively Parallel Resolution of Web Entities

Vasilis Efthymiou, George Papadakis|arXiv (Cornell University)|May 15, 2019
Data Quality and Management被引用数 4
ひとこと要約

MinoanER は、トークンベースの類似性と隣接関係の証拠を、排他的ブロッキンググラフを介して統合することで、スキーマに依存せず反復処理を行わず、大規模並列処理が可能な Web of Data 向けエンティティレゾリューションフレームワークであり、極めて多様性の高いエンティティを効果的に解決する。スケーラブルで反復処理を伴わないマッチングプロセスにおいて、コンテンツ、名前、隣接関係の類似性を統合し、4つの頑健で構成に依存しないルールを用いることで、最先端のツールを上回る性能を発揮する。

ABSTRACT

Entity Resolution (ER) aims to identify different descriptions in various Knowledge Bases (KBs) that refer to the same entity. ER is challenged by the Variety, Volume and Veracity of entity descriptions published in the Web of Data. To address them, we propose the MinoanER framework that simultaneously fulfills full automation, support of highly heterogeneous entities, and massive parallelization of the ER process. MinoanER leverages a token-based similarity of entities to define a new metric that derives the similarity of neighboring entities from the most important relations, as they are indicated only by statistics. A composite blocking method is employed to capture different sources of matching evidence from the content, neighbors, or names of entities. The search space of candidate pairs for comparison is compactly abstracted by a novel disjunctive blocking graph and processed by a non-iterative, massively parallel matching algorithm that consists of four generic, schema-agnostic matching rules that are quite robust with respect to their internal configuration. We demonstrate that the effectiveness of MinoanER is comparable to existing ER tools over real KBs exhibiting low Variety, but it outperforms them significantly when matching KBs with high Variety.

研究の動機と目的

  • 高多様性、高ボリューム、高信頼性を特徴とする Web of Data におけるエンティティレゾリューション(ER)の課題に対処すること。
  • スキーマ依存の類似性測定の限界を克服するため、スキーマに依存しないトークンベースの類似性メトリクスを導入すること。
  • 収束問題を回避し、大規模並列処理を可能にするスケーラブルで反復処理を伴わない ER を実現すること。
  • 異種知識ベースに一般的に見られる類似度の高いエンティティの解決を向上させるために、隣接関係の類似性証拠を統合すること。
  • 教師あり学習を必要とせず、コンテンツ、名前、隣接関係の類似性の複数の証拠源を統合する複合ブロッキング機構を構築すること。

提案手法

  • スキーマや属性名に依存せず、エンティティ記述間の値の類似性を計算するために、非構造化トークンにおけるジャカード係数に基づくトークンベースの類似性を利用する。
  • 関係の統計的重要性(共起頻度を介して)に基づく新しい隣接関係類似性メトリクスを定義し、エンティティ間の重要なリンク関係を同定する。
  • 複数のソースからの候補マッチを要約する排他的ブロッキンググラフを構築:値内の共有トークン、共有名前(例:rdfs:label)、類似した隣接関係。
  • スケーマに依存しない重み付き pruning 戦略を適用し、排他的グラフ内の低重みエッジを削除することで、ラベルなしデータを用いても誤検出を低減する。
  • スケーリング可能で反復処理を伴わない4ルールのマッチングアルゴリズム(R1–R4)を、プルーニング後のグラフ上で実行する:R1(値マッチ)、R2(名前マッチ)、R3(隣接関係マッチ)、R4(統合証拠)、いずれも線形時間計算量。
  • Apache Spark を活用して、CPU コア間での動的タスク割り当てにより、パイプライン全体の並列処理を実現し、リソースのバランスを維持する。

実験結果

リサーチクエスチョン

  • RQ1グローバルスキーマや反復的最適化に依存せずに、スキーマに依存しない反復処理を伴わない ER フレームワークが、Web of Data の極めて多様性の高いエンティティを効果的に解決できるか。
  • RQ2値ベースの類似性が弱い場合に、隣接関係の類似性が、類似度の高いエンティティの解決に補助的信号としてどれほど有効であるか。
  • RQ3教師あり学習を必要とせず、コンテンツ、名前、隣接関係の類似性を統合する複合ブロッキング機構を、効率的に要約およびプルーニングできるか。
  • RQ4MinoanER の反復処理を伴わない設計が、反復的 ER フレームワークと比較して、スケーラビリティと収束性をどの程度向上させるか。
  • RQ5MinoanER の性能は、特に高多様性の知識ベースにおいて、異なるデータボリュームと多様性レベルの下でどのようにスケーリングするか。

主な発見

  • MinoanER は低多様性の知識ベース(例:Restaurant、Rexa-DBLP)では最先端のツールと同等の性能を発揮するが、高多様性のデータセットでは顕著に優れている。
  • BBCmusic-DBpedia において、隣接関係の類似性は、隣接関係証拠なしのベースラインと比較して、精度を 2.22% 向上させ、再現率を 3.19% 向上させた。
  • YAGO-IMDb では、隣接関係の類似性が精度を 2.97%、再現率を 3.15% 向上させ、類似度の高いエンティティの解決においてその重要性を示した。
  • MinoanER のマッチングフェーズは、合計実行時間の 20–45% にとどまり、ブロッキングと前処理が効率的でスケーラブルであることを示している。
  • Rexa-DBLP では、1コアと比較して12コアで 10倍の高速化を達成し、Spark のタスクスケジューリングのおかげで、すべてのデータセットで非線形的だが効率的なスルーレート向上を示した。
  • Rexa-DBLP では、PARIS が 11分を要するのに対し、MinoanER は 3.5分で処理完了した。YAGO-IMDb では、PARIS が 51時間、SiGMa が 70分を要するのに対し、MinoanER は 28分で処理完了し、優れた効率性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。