QUICK REVIEW

[論文レビュー] Evaluation on Entity Matching in Recommender Systems

Zihan Huang, Rohan Surana|arXiv (Cornell University)|Jan 23, 2026

Topic Modeling被引用数 0

ひとこと要約

この論文は Reddit の映画言及と Amazon の映画エントリを跨ぐデータセットの大規模手動アノテーションを行い、複数の EM 手法をベンチマークして、グラフベースおよび LLM 強化アプローチが伝統的ベースラインを上回ることを示す。さらに EM が LLM 主導の対話型推薦に及ぼす影響も分析する。

ABSTRACT

Entity matching is a crucial component in various recommender systems, including conversational recommender systems (CRS) and knowledge-based recommender systems. However, the lack of rigorous evaluation frameworks for cross-dataset entity matching impedes progress in areas such as LLM-driven conversational recommendations and knowledge-grounded dataset construction. In this paper, we introduce Reddit-Amazon-EM, a novel dataset comprising naturally occurring items from Reddit and the Amazon '23 dataset. Through careful manual annotation, we identify corresponding movies across Reddit-Movies and Amazon'23, two existing recommender system datasets with inherently overlapping catalogs. Leveraging Reddit-Amazon-EM, we conduct a comprehensive evaluation of state-of-the-art entity matching methods, including rule-based, graph-based, lexical-based, embedding-based, and LLM-based approaches. For reproducible research, we release our manually annotated entity matching gold set and provide the mapping between the two datasets using the best-performing method from our experiments. This serves as a valuable resource for advancing future work on entity matching in recommender systems.Data and Code are accessible at: https://github.com/huang-zihan/Reddit-Amazon-Entity-Matching.

研究の動機と目的

Reddit-Amazon-EM を紹介する。これは Reddit の映画言及と Amazon カタログエントリを結ぶ、公開で入手可能な知識 grounding EM データセットとして最大規模である。
跨データセットリンクに対する多様な EM 手法（ルールベース、語彙ベース、埋め込みベース、グラフベース、LLM ベース）の厳密な評価を提供する。
EM 品質が下流の LLM 主導の対話型推奨システムの性能にどのように影響するかを分析する。
アノテーション済みのゴールドデータと評価コードを公開して再現可能な研究を可能にする。

提案手法

Reddit-Amazon-EM を構築する際、約4k の Amazon Movie エントリを Reddit の映画言及に手動でリンク付けする。
タイトルベースの類似性とメタデータフィルタリングを用いて、各 Reddit タイトルの候補となる Amazon エントリを取得する。
メタデータとプロンプト（例：GPT-3.5）を備えた Streamlit インターフェースを用いて、正しい対応を手動で確認する。
複数の EM ベースラインを評価する：BM25、Faiss、Embedding+Fuzzy、GNEM、ComEM。
Recall@k、Precision@k、F1、Accuracy に加え、計算効率を評価する。
再現性のために、アノテーション済みゴールドセットとデータセット-候補マッピングを提供する。

実験結果

リサーチクエスチョン

RQ1Reddit と Amazon の跨データセット映画リンク付けにおける異なるエンティティマッチング手法の有効性はどの程度か。
RQ2ノイズのある現場の映画タイトルやデータの非一様性を最も適切に扱うEM手法はどれか。
RQ3EM の品質は、LLM 主導の対話型推奨システムの性能へどのように転用されるか。
RQ4EM アプローチ間の精度・再現率と効率のトレードオフはどうなるか。

主な発見

Model	Precision	Recall@1	F1 score	Accuracy
Emb+Fuzzy	86.38 ±0.03	86.99 ±0.04	86.68 ±0.03	92.78 ±0.02
BM25	74.93 ±0.04	82.30 ±0.04	78.43 ±0.03	89.71 ±0.02
Faiss	60.51 ±0.04	89.76 ±0.03	72.28 ±0.04	91.83 ±0.02
BM25 + Faiss	74.54 ±0.04	84.49 ±0.04	79.20 ±0.03	90.75 ±0.02
ComEM	94.50 ±0.04	93.97 ±0.04	94.02 ±0.04	94.70 ±0.04
GNEM	95.82 ±0.02	96.78 ±0.02	96.29 ±0.01	96.74 ±0.01

GNEM（グラフベース）は最高の性能を達成（F1 96.29%、Accuracy 96.74%）。
ComEM（LLM 強化）はGNEM に近く、F1 94.02%、Accuracy 94.70% を達成。
Embedding+Fuzzy は従来のベースラインより強力だが、GNEM および ComEM には大きく及ばない（F1 86.68%）。
BM25 と Faiss は異なる精度/再現のトレードオフで遅れがち（例：Faiss は高再現だが精度が低い）。
従来手法は初期化は速いが推論は遅い；GNEM および ComEM はセットアップ後の全体的な効率が良い。Embedding+Fuzzy は速度と性能のバランスを取る。
CRS 対話タスクでは GNEM が依然トップパフォーマーで、対話の多様性に対して頑健だが、対話設定では小規模LLMでの利得は縮小する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。