Skip to main content
QUICK REVIEW

[論文レビュー] HyperJoin: LLM-augmented Hypergraph Link Prediction for Joinable Table Discovery

Shiyuan Liu, Jianwei Wang|arXiv (Cornell University)|Jan 3, 2026
Data Quality and Management被引用数 0
ひとこと要約

HyperJoin は結合可能なテーブルの発見をハイパーグラフ上のリンク予測へ再構成し、LLM で拡張された表間エッジと表内エッジ、階層的相互作用ネットワーク、MST ベースのリランキングを用いて一貫性と精度を向上させます。

ABSTRACT

As a pivotal task in data lake management, joinable table discovery has attracted widespread interest. While existing language model-based methods achieve remarkable performance by combining offline column representation learning with online ranking, their design insufficiently accounts for the underlying structural interactions: (1) offline, they directly model tables into isolated or pairwise columns, thereby struggling to capture the rich inter-table and intra-table structural information; and (2) online, they rank candidate columns based solely on query-candidate similarity, ignoring the mutual interactions among the candidates, leading to incoherent result sets. To address these limitations, we propose HyperJoin, a large language model (LLM)-augmented Hypergraph framework for Joinable table discovery. Specifically, we first construct a hypergraph to model tables using both the intra-table hyperedges and the LLM-augmented inter-table hyperedges. Consequently, the task of joinable table discovery is formulated as link prediction on this constructed hypergraph. We then design HIN, a Hierarchical Interaction Network that learns expressive column representations through bidirectional message passing over columns and hyperedges. To strengthen coherence and internal consistency in the result columns, we cast online ranking as a coherence-aware top-k column selection problem. We then introduce a reranking module that leverages a maximum spanning tree algorithm to prune noisy connections and maximize coherence. Experiments demonstrate the superiority of HyperJoin, achieving average improvements of 21.4% (Precision@15) and 17.2% (Recall@15) over the best baseline.

研究の動機と目的

  • データレイクにおける構造を意識した問題として、結合可能なテーブルの発見を動機づける。
  • 表内・表間の関係を捉えるハイパーグラフベースのフレームワークを提案する。
  • 階層的相互作用ネットワークを通じて表現力の高い列表現を学習する。
  • 一貫性を意識した top-K 選択と MST ベースのリランキングでオンラインランキングを改善する。
  • 複数のベンチマークでベースラインを上回る経験的成果を示す。

提案手法

  • 列をノードとするハイパーグラフを構築し、表内エッジと LL M 拡張された表間ハイパーエッジを含める。
  • 表名、列名、セル値から初期列特徴をエンコードし、ノード埋め込みに結合する。
  • 局所ハイパーエッジ集約とグローバルハイパーエッジ混合を用いた階層的相互作用ネットワークで表現力のある表現を作る。
  • ポジショニングの無関心性とグローバルな構造的役割に対処するため、表レベルと列レベルの位置エンコーディングを適用する。
  • オンラインランキングを一貫性を意識した top-K 問題として定式化し、ノイズの多い接続を除去するために greedy MST ベースのリランキングで解く。
  • 最先端と比較して Precision@15 の平均向上 21.4%、Recall@15 の平均向上 17.2% を示し、優越性を立証する。

実験結果

リサーチクエスチョン

  • RQ1結合可能なテーブルの発見は、表内および表間の構造を明示的にモデル化することで改善できるか?
  • RQ2ハイパーグラフベースの表現とLLM拡張を組み合わせると、テーブル間の結合性シグナルの伝搬はより良くなるか?
  • RQ3一貫性を意識した top-K 選択と MST リランキングは、既存のオンラインランキング手法よりも一貫性があり正確な結果セットをもたらすか?

主な発見

  • HyperJoin は best baseline に対して Precision@15 の平均改善を 21.4%達成。
  • HyperJoin は best baseline に対して Recall@15 の平均改善を 17.2%達成。
  • 表内エッジと LL M 拡張された表間エッジを含むハイパーグラフは、分離された表現やペアワイズ表現よりも構造的文脈をより良く捉える。
  • 階層的相互作用ネットワークは、ハイパーグラフ上で効果的な全局および局所のメッセージ伝搬を可能にする。
  • 一貫性を意識した top-K ランキングと MST ベースのリランキングモジュールは、結果の一貫性を向上させ、ノイズの多い接続を削減する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。