Skip to main content
QUICK REVIEW

[論文レビュー] Entity Matching using Large Language Models

Ralph Peeters, Steiner, Aaron|arXiv (Cornell University)|Oct 17, 2023
Topic Modeling被引用数 8
ひとこと要約

この論文はエンティティマッチングのための大規模言語モデル(LLMs)を評価し、ホスト型とオープンソース型のLLMを横断してゼロショットとFew-shotプロンプトを比較し、PLMベースラインと比較して、プロンプト設計をハイパーパラメータとして強調し、タスク固有の訓練を要せずにLLMがPLMと同等またはそれを上回ること、未見のエンティティに対しても強固なロバスト性を示すことを示しています。

ABSTRACT

Entity matching is the task of deciding whether two entity descriptions refer to the same real-world entity. Entity matching is a central step in most data integration pipelines. Many state-of-the-art entity matching methods rely on pre-trained language models (PLMs) such as BERT or RoBERTa. Two major drawbacks of these models for entity matching are that (i) the models require significant amounts of task-specific training data and (ii) the fine-tuned models are not robust concerning out-of-distribution entities. This paper investigates using generative large language models (LLMs) as a less task-specific training data-dependent and more robust alternative to PLM-based matchers. The study covers hosted and open-source LLMs which can be run locally. We evaluate these models in a zero-shot scenario and a scenario where task-specific training data is available. We compare different prompt designs and the prompt sensitivity of the models. We show that there is no single best prompt but that the prompt needs to be tuned for each model/dataset combination. We further investigate (i) the selection of in-context demonstrations, (ii) the generation of matching rules, as well as (iii) fine-tuning LLMs using the same pool of training data. Our experiments show that the best LLMs require no or only a few training examples to perform comparably to PLMs that were fine-tuned using thousands of examples. LLM-based matchers further exhibit higher robustness to unseen entities. We show that GPT4 can generate structured explanations for matching decisions and can automatically identify potential causes of matching errors by analyzing explanations of wrong decisions. We demonstrate that the model can generate meaningful textual descriptions of the identified error classes, which can help data engineers to improve entity matching pipelines.

研究の動機と目的

  • PLMsのエンティティマッチングにおけるデータ効率と未見エンティティへのロバスト性といった制約を克服するためにLLMsの使用を動機づける。
  • 複数のベンチマークデータセットに対して、さまざまなプロンプト設計とインコンテキスト学習戦略を評価する。
  • プライバシー敏感な利用ケースにおいて、ホスト型とオープンソースLLMsを比較する。
  • 性能向上を図りつつ一般化を維持するためのLLMsのファインチューニングを検討する。

提案手法

  • 6つのEMベンチマーク上で、3つのホスト型LLM(GPT-3.5-turbo-0301、GPT-3.5-turbo-0613、GPT-4)と3つのオープンソースLLM(SOLAR、Beluga2、Mixtral)を評価する。
  • 強力なベースラインとしてPLMベースラインのRoBERTa-baseとDitto(RoBERTaのファインチューニング版)と比較する。
  • エンティティペアを連結属性文字列として直列化し、LLM出力に含まれる「yes」という語の有無をパースして一致を判定する。
  • ゼロショットプロンプト設計の幅広い設計(ドメイン/一般、シンプル/複雑、強制/自由)を探り、プロンプト感度を分析する。
  • 手作業で選定したデモ、ランダム、関連ヒューリスティクスによるデモンストレーションを用いたインコンテキスト学習を実施し、学習されたまたは手書きのマッチングルールも試す。
  • ファインチューニングしたPLMsを未見データに転移させることで、モデルの未見エンティティ耐性を評価する。
  • プロンプト(デモンストレーション)にタスク固有データを追加し、学習ルールを導入し、LLMsをファインチューニングする実験を行う。

実験結果

リサーチクエスチョン

  • RQ1大規模言語モデルはタスク固有データなしでエンティティマッチングを実行できるか?
  • RQ2ゼロショットプロンプト設計はモデルとドメイン間でEM性能にどう影響するか?
  • RQ3インコンテキストデモンストレーションとデモンストレーション選択戦略はLLMsによるEMにおいてどの役割を果たすか?
  • RQ4オープンソースLLMsのローカル展開はEMタスクでホスト型モデルと同等の性能を得られるか?
  • RQ5ファインチューニングやルールベースの指示は、一般化を損なうことなくEM性能をさらに向上させるか?

主な発見

  • GPT-4はデータ固有の訓練なしで複数のデータセットにおいて最も強力なゼロショットF1を達成し、89%以上を達成するデータセットもある。
  • 最適なプロンプトは1つには決まらず、プロンプトの有効性はモデルとデータセットに依存するため、プロンプトをハイパーパラメータに例えるべきである。
  • オープンソースLLMs(SOLAR、Beluga2、Mixtral)は適切なプロンプティングでGPT-3.5の結果に近づく、または匹敵できるが、ゼロショットではGPT-4が依然優位である。
  • ゼロショットのGPT-4は6データセット中3データセットでファインチューニング済みPLMを上回るか同等であり、LLMsがタスク固有の訓練データニーズを削減または代替できる可能性を示している。
  • EMのためのファインチューニングは性能を大幅に向上させ、データ間一般化を維持する一方で、ファインチューニング済みPLMsの未見データ転移はしばしば失敗する。
  • インコンテキストデモンストレーションは一般にほとんどのモデルとデータセットで性能を向上させ、データセットとモデルにより gains が異なる。関連デモはGPT-4に有利になることが多く、ランダム/手作業で選択したデモはオープンソースLLMsに有利になることが多い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。