QUICK REVIEW

[論文レビュー] Match, Compare, or Select? An Investigation of Large Language Models for Entity Matching

Tianshu Wang, Xiaoyang Chen|arXiv (Cornell University)|May 27, 2024

Topic Modeling被引用数 5

ひとこと要約

本論文は、3つのLLMベースのエンティティマッチング戦略（マッチング、比較、選択）を比較し、それらを組み合わせてEMタスクの有効性を向上させ、コストを削減する構成的フレームワーク ComEM を提案する。

ABSTRACT

Entity matching (EM) is a critical step in entity resolution (ER). Recently, entity matching based on large language models (LLMs) has shown great promise. However, current LLM-based entity matching approaches typically follow a binary matching paradigm that ignores the global consistency among record relationships. In this paper, we investigate various methodologies for LLM-based entity matching that incorporate record interactions from different perspectives. Specifically, we comprehensively compare three representative strategies: matching, comparing, and selecting, and analyze their respective advantages and challenges in diverse scenarios. Based on our findings, we further design a compound entity matching framework (ComEM) that leverages the composition of multiple strategies and LLMs. ComEM benefits from the advantages of different sides and achieves improvements in both effectiveness and efficiency. Experimental results on 8 ER datasets and 10 LLMs verify the superiority of incorporating record interactions through the selecting strategy, as well as the further cost-effectiveness brought by ComEM.

研究の動機と目的

グローバルなレコード間の相互作用がLLMの性能に影響を与えるEMタスクとしてエンティティマッチングを動機づける。
3つの相互作用戦略（マッチング、比較、選択）の長所と限界を特定する。
ComEM を提案し、戦略とLLMを組み合わせてより高い精度とコスト効率を実現する。
複数のERデータセットにわたる実用的な gains を示し、LLM の影響とコストの考慮を分析する。

提案手法

EM を、1対1およびデュアルソースの仮定を用いてレコード r および候補集合 Rc からのマッチング済みレコードを特定する問題として定式化する。
3つの戦略を定義する： (i) ペアごとのYes/No判断のためのマッチャーとしてのLLM、(ii) 候補ペア間の比較者としてのLLM、(iii) リストから最良の候補を選択する選択者としてのLLM。
ComEM を提案する：中規模のLLMを用いてマッチング/比較を通じて候補を事前ランク付け/フィルタし、次に強力なLLMを用いてトップ-k から最終的な一致を選択戦略で特定する。
8つのERデータセットで1つの商用および9つのオープンソースLLMを用いて戦略を実験的に比較し、F1、精度、再現率、およびLLMの呼び出しコストを評価する。
ComEM は戦略を統合して単一戦略アプローチと比較してF1を改善しコストを削減する。

実験結果

リサーチクエスチョン

RQ1LLMベースのEMにおいて、マッチング、比較、選択戦略は精度、再現率、適合率、およびコストの観点でどのように比較されるか。
RQ2多様なERデータセットとLLMタイプにわたる各戦略の長所と短所は何か。
RQ3戦略とLLMsを組み合わせた構成的フレームワーク（ComEM）は、全体的なEM性能と効率を向上させうるか。
RQ4レコード間の相互作用の組み込みはEMの有効性とコストにどのような影響を与え、実務上の制約（例：位置バイアス、長文コンテキストの必要性）は何か。

主な発見

レコード間の相互作用は重要であり、比較は独立したマッチングより平均F1を5.24%向上させ、選択は比較より最大で8.15%向上させる。
選択戦略は最もコスト効果が高く、マッチング戦略の半分未満のコストで済む。
位置バイアスと長いコンテキストの制約は、特に候補の位置が増加するにつれて、比較と選択戦略の有効性に影響を与える。
全戦略を通じて支配的なオープンソースLLMは存在せず、モデルと戦略によって性能は異なる。
ComEM は中程度のLLMによるフィルタリングとより強力なLLMによる最終同定を組み合わせることで、最良の選択ベースの基準より約8%のF1改善を達成しつつコストを削減する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。